周昀点点头,将白板上的内容擦去:“好,那接下来我回答您的第二个问题。”
马克笔不断在白板上写下各种奇怪的符号,至少在一些旁听的老师和学生眼里是这样的。
“对于高维嵌入的数值稳定性,维度灾难会导致c_x和c_y的谱不稳定,我引入了谱正则化:对相似矩阵施加核范数罚项,min||c||*+λ||c-k||f^2
......
这样就能这确保了在噪声环境下,fgw的梯度下降不会发散,实验中在imagenet-1k上的鲁棒性提升了15%。”
浙大老师并没有第一时间回答,而是重新翻到了论文的对应页面,看了一会儿才朝着周昀点了点头,眼里满是对周昀的欣赏:“我没问题了。”
此时,车伟强也放下了手里的笔,朝周昀笑了笑:“周昀同学,你的论文写得非常扎实,理论深度就算是我都有些自愧不如,
不过你能否解释一下关于你在多模态融合中提到的schrödinger桥框架,在高维嵌入中,你如何处理sb路径优化的非凸性问题以保证收敛?”
旁听学生中有车伟强的学生,当他们看到老师脸上的笑容时,心中浮现出三个字——科幻片!
入学一两年以来,他们从来没见过车伟强在他们面前笑过。
果然,人和人之间的差距有时候比人和狗都大。
“没问题。”周昀微微点头,拿笔开始在白板写下公式:“schrödinger桥(sb)通过最小化相对熵求解从视觉模态μ到语言模态ν的最优随机路径:
sbμ,νinf_p:p_0μ,p_1νklp||q,其中q是布朗运动参考路径,
为了融入时间序列对齐,我将动态时间规整(dtw)引入sb框架,构建时间依赖的传输计划。
......
推导上,sb的密度满足fokker-planck方程:p_tt-12Δp_t-divp_tv_t,其中v_t是最优速度场......”
车伟强听后,点了点头:“所以,你是用dtw给sb加了个时间对齐的先验,相当于在路径上加了个正则项,强制x和y同步?就像是用动态规划把时间轴拉直。”
周昀笑着摇了摇头:“实则不然,刚刚我在ppt里也有讲到,我的做法是将dtw成本嵌入girsanov变换,优化联合分布