多模态大模型肯定不行,跑个实验一个月就过去了,更别说什么毕业论文了。
模型压缩?其实也不太好做,跑实验也要不少时间。
那他剩下的只有一条路——搞理论。
他说的搞理论也不是纯理论,而是那种只需要小型验证性实验的模型基础架构方面的研究,比如提出transform的attentionisallyouneed,实验部分其实并不算多。
直接提出一种全新的技术模型架构?
说实话,这个问题他想过,而且时间很久,久到可以追溯到上辈子。
虽然上辈子周昀没这么聪明,但是当他第一次接触到transform的时候就在想,他能不能研究出一种更加厉害的基础架构。
当然了,这在上辈子完全就是幻想。
所以平时有空的时候他就会抽出时间思考这个问题,所以邱彦他们经常能看到周昀独自一个人坐在位置上发呆,而且一坐就是几个小时。
但哪怕他觉得自己现在已经足够聪明,可是经过近半年的思考,他还是没能想到什么全新的架构,终究还是被束缚在transform的框架之下。
不过他也没有气馁,毕竟这东西要是研究出来,说一句名垂千古都不为过。
更何况他还年轻。
既然新的架构不行,就只能从他熟悉的两个领域入手了。
他的手指一顿,突然想到了一个非常好的选题,如果能做出来,贡献也绝对是巨大的。
这个选题就是——多模态融合中的最优传输理论。
多模态学习的核心是如何将不同模态(视觉、语言)的特征空间对齐,当前的方法通常使用的是交叉注意力机制,甚至是更为简单的点积或余弦相似度。
而最优传输(optimaltransport,ot)是一种数学理论,致力于寻找将质量或概率从一种构型转移到另一种构型的最有效方式,从而最小化给定的成本。
他的想法就是将对齐问题建模为ot问题,当然,这个ot问题肯定会非常难,因为每一个特征的维度都是非常高的,而多模态的特征又非常多。
所以他就联想到了人类的大脑,人脑在处理不同感官信息(视觉、听觉、触觉)时,似乎在底层存在着一种统一的“意识流”,
各种模态的信息涌入后,被映射并在这个流中进行交换、融合和理解,