手机浏览器扫描二维码访问
標题很简单:“群作用下的特徵空间统一表示”
。
“传统多模態学习的问题在於,不同数据类型的特徵空间是异构的。”
肖宿的声音通过麦克风传遍讲堂,清晰而平静。
“图像用卷积神经网络提取特徵,文本用transformer,语音用梅尔频谱。
这些特徵向量维度不同,结构不同,度量不同。
强行融合就像把苹果和橘子加在一起算总数,没有意义。”
他在白板上画了两个不相交的圆圈,分別標註“图像特徵空间”
和“文本特徵空间”
。
“我的思路是,引入群论作为统一框架。”
肖宿切换ppt,出现了一个复杂的数学结构图。
“所有数据模態,经过编码器映射到同一个群表示空间。
在这个空间里,图像旋转、文本语法变换、语音时移,都可以看作群作用。”
台下,姚毅智院士眼睛一亮,迅速在笔记本上记下几个关键词。
“关键在於对称性约束。”
“每个数据模態都有其內在对称性。”
“图像有旋转、平移、缩放对称;文本有语法、语义对称。”
“自监督学习的目標,是在保持这些对称性的前提下,解耦出独立的特徵因子。”
他调出了一段代码演示。
屏幕上,一个简单的神经网络正在训练,输入是未標註的图像和文本对,输出是解耦后的特徵向量。
“训练过程中,系统会自动发现不同模態特徵之间的对应关係。”
肖宿指著屏幕上的损失函数曲线。
“这是群等变约束损失,这是特徵解耦损失。
两者结合,就能实现跨模態的自然对齐。”
钱卫华院士身体前倾,盯著屏幕上的公式。
他是搞超算出身的,对算法效率极其敏感。
而肖宿展示的这个框架,计算复杂度明显低於传统的多模態融合方法。
“具体到实现细节……”
肖宿开始深入技术核心。
接下来的三十分钟,他像拆解精密的机械一样,將整个群论框架一层层剥开。
从李群在流形上的作用,到特徵空间的纤维丛结构,再到自监督信號的构造方法……
讲堂里的气氛开始变得有些微妙。
前十几分钟,大部分学生还能勉强跟上,毕竟肖宿讲得深入浅出,而且还用了很多直观的比喻。
二十分钟后,大多数学生已经开始眼神涣散了。
精品好书,尽在咪咕...
一句话简介绑定龙傲天的原配系统后,教有灵魂伴侣的龙傲天修男德。温泅雪想体会一下谈恋爱的乐趣,于是绑定了一个叫龙傲天原配的穿书系统。系统表示谈恋爱找我们龙傲天就对了龙傲天他魅力无穷,...
骆州乔府大小姐成婚了!嫁的一个大将军!新婚夜她把新郎官给杀了。什么?新郎没死?新娘逃了?逃到了土匪窝啦!练成一身武艺,弓马剑不在话下!新郎又遇刺了,差点被飞镖给射杀啦!把新郎可气惨了!给我把她抓回...
斗罗大陆的凤凰神之子被送到大千世界修炼最后和邪神一战,邪神被封印,我们也惨败,但不甘就此陨落,分化本体,到不同的世界,当重回巅峰,炑林邪神,你能突破那个境界,我也一定可以,我会让你知道,犯我大千者,杀无赦!在斗破武动修炼,直至巅峰回归,斩邪神,灭邪族,最后重回斗罗。...
让你御兽,美杜莎女王什么鬼...