张渝律吕杨落地窗:一场关于光影与生活的诗意对话

核心内容摘要

揭秘《秘密教学》:深度解析隐藏的魅力与艺术
桃之夭夭,灼灼其华——解锁“水蜜桃任意噪”的夏日甜蜜密码

78凑13:数字密码里的奇妙邂逅与人生智慧

本文介绍了2025年NeurIPS会议上的4篇多模态表征学习论文分别探讨了有限数据场景下的多模态对齐(STRUCTURE)、模态错位的理论价值、特征因果分解(FCD)方法以及通过视觉嵌入蒸馏(VisPer-LM)提升MLLM视觉感知能力。

这些创新方法为解决多模态学习中的数据稀缺、噪声干扰和视觉感知不足等关键挑战提供了新思路在医疗、生物等专业领域具有重要应用价值。

本文介绍人工智能顶会NeurIPS在2025年发表的4篇关于多模态表征学习的论文。

下面将详细讲解这些细节。

1在有限数据场景下的多模态对齐原文标题: With Limited Data for Multimodal Alignment, Let the STRUCTURE Guide You原文单位EPFL、University of Basel、HSLU原文链接: https://arxiv.org/pdf/

2

16895源码链接https://github.com/mlbio-epfl/STRUCTURE这篇论文试图解决的核心问题是能否在仅使用极少量例如数万对配对多模态样本的情况下将预训练的单模态基础模型有效地对齐到一个共享的表示空间中 目标是克服现有方法需要数百万甚至数亿配对数据的限制以适用于医疗、生物等数据获取成本高昂的领域。

1 背景知识实现多模态理解的关键一步是将不同模态的信息映射到同一个“意义空间”这样一张猫的图片和“猫”这个文字概念在AI的“大脑”里就会靠得很近从而实现跨模态的检索、比较和推理。

目前构建强大多模态模型的主流方法如著名的CLIP模型存在一个巨大的瓶颈它们极度依赖海量的“配对数据”。

所谓配对数据就是成对出现的、内容相关的不同模态数据。

在许多专业和重要的领域如医疗、生物科学、特定工业场景获取这种高质量、大规模、精确配对的跨模态数据极其困难、昂贵且耗时。

因此一个核心的挑战摆在我们面前我们能否利用现成的、已经训练好的单模态专家模型只使用非常少量的配对数据比如几万对而不是几亿对就将它们有效地“对齐”到一个共享的理解空间中 这篇论文正是要回答这个极具现实意义的问题。

2 方法图1有限数据下跨模态对齐方法的概述。

目标是将来自两种模态如图像和文本的表征对齐到一个共享的嵌入空间中。

如图1所示保持编码器冻结并学习轻量级的对齐函数将每个模态的潜在空间映射到一个共享空间其中语义相关的样本彼此接近。

论文最主要的创新点包含两个可以无缝集成到现有对齐方法中的组件STRUCTURE正则化这是一种新颖的正则化技术旨在保持每个单模态编码器潜在空间的邻域几何结构。

其核心思想是通过计算并最小化原始单模态空间与对齐后共享空间之间多尺度multi-scale相似性分布的Jensen-Shannon散度迫使对齐过程保留预训练模型所编码的样本间有意义的关系。

基于相似性的层选择策略论文挑战了传统上仅对齐模型最后一层的做法提出选择跨模态表征相似性最高的层进行对齐。

通过在一个小规模配对样本集上计算层间相似性如基于互k近邻并选择最相似的层对可以显著提升对齐效果。

2多模态表示学习中模态错位的价值原文标题: On the Value of Cross-Modal Misalignment in Multimodal Representation Learning原文链接: https://arxiv.org/abs/

2

10143源码链接https://yichaocai.com/misalignment.github.io/这篇论文试图解决的核心问题是在现实世界数据普遍存在跨模态错位即图像-文本对在语义上不完全一致的情况下如何从理论上理解错位对多模态表示学习的影响并调和“错位有害应被缓解”与“错位有益可被利用”这两种看似矛盾的观点。

1 背景知识近年来以 CLIP 为代表的模型取得了巨大成功。

它们通过在海量的“图像-文本”配对数据上进行训练学会了将一张图片和一段描述它的文字在概念上“对齐”。

然而上述成功背后隐藏着一个脆弱的假设训练用的“图像-文本”对在语义上是完美对齐的。

也就是说文字必须完整且准确地描述图片的全部核心内容。

现实情况却大相径庭。

在互联网上爬取的海量数据中图文配对往往是“粗糙”的文字描述不完整一张包含“蓝天、白云、绿树、行人、小狗”的街景图配文可能只有“晴朗的一天”。

文字选择性地描述了天气蓝天白云却忽略了树、行人、小狗等其他语义信息。

文字描述有错误或误导一张“黑猫”的图片可能被错误地标注为“灰猫”。

或者描述中加入了个人的主观感受“这只猫看起来很凶”但这并非图片客观包含的信息。

这种现象被称为 “跨模态错位” 。

研究表明在一些大规模视频-文本数据集中超过一半的所谓“配对”数据都存在不同程度的错位。

这种“图文不符”直接导致了当前多模态AI系统的两大矛盾观点和实际困境**“错位有害论”**错位就像是错误的教学材料。

对于AI模型错位会引入噪声和误导导致模型产生“幻觉”比如看图说话时胡编乱造或者学到的知识有缺陷影响其在各种任务上的表现。

**“错位有益论”**另一些研究发现适度的“错位”或干扰比如随机改变描述的风格“一只猫” vs. “一只毛茸茸的猫咪”反而能让模型学到更鲁棒的表示。

使模型在新环境零样本学习或数据很少少样本学习的情况下表现更好。

这就引出了本文要解决的核心痛点面对普遍存在的跨模态错位我们究竟应该视其为“毒药”并极力清除还是可以将其作为“疫苗”来加以利用我们能否建立一个统一的理论框架来理解这种矛盾并指导实际应用

2 方法图1所提出的潜变量模型示意图左通过选择和扰动偏差建模跨模态不对齐论文最主要的创新点或方法包括**

新的潜在变量模型**提出了一个形式化的潜在变量模型来刻画跨模态错位的生成过程。

该模型将潜在空间划分为语义变量、图像特定变量和文本特定变量并引入了两种具体的错位机制**选择偏差**文本仅保留部分语义信息如描述颜色但忽略纹理。

**扰动偏差**文本中保留的语义信息被错误地修改如将“黑色”误标为“红色”。

**

理论可识别性分析**在多模态对比学习的框架下证明了在温和假设下模型学习到的表示能够块识别那些不受选择偏差和扰动偏差影响的语义变量子集。

而被错位影响的语义变量则会被完全排除在学到的表示之外且该结论独立于潜在语义变量之间的因果结构。

**

统一的理论视角**基于上述理论为错位的影响提供了一个统一的解释错位会过滤掉不稳定或不一致的语义信息。

因此在需要保留完整语义以最大化下游任务性能的场景中错位是有害的而在需要学习对分布变化鲁棒的不变表示的场景中错位可以作为一种正则化器反而有益。

3特征因果分解FCD多模态表示学习的即插即用模块这篇论文试图解决的核心问题是现有的多模态表示学习方法通常将每个模态内部的不确定性噪声误认为是互补信息导致无法在消除模态内偶然性不确定性的同时有效利用模态间的一致性和互补性信息。

1 背景知识尽管多模态前景广阔但实现起来却面临一个根本性难题模态异质性与数据噪声。

**模态异质性**不同模态的数据“天生不同”。

图像是像素矩阵文本是单词序列音频是声波。

这种格式上的巨大差异使得计算机很难直接比较和融合它们。

**数据不确定性噪声**这是本文要解决的核心“痛点”。

在实际应用中每个模态的数据在采集时都会引入各自特有的、与任务无关的噪声。

比如文本模态可能包含拼写错误、语法不通、网络用语或无关的广告词。

图像模态可能因拍摄光线昏暗、镜头模糊、无关背景物体而质量不佳。

音频模态可能夹杂环境杂音、录音失真。

**关键问题在于**现有的很多多模态学习方法常常会错误地将这些模态特有的“噪声”也当作有用的“互补性信息”来处理。

例如一个模型可能会把图片中模糊的、无关的背景纹理或者文本中的错别字当成是帮助判断的“独特线索”。

这就像在听交响乐时错误地把观众的咳嗽声当成了乐曲的一部分必然会导致对音乐本身理解的偏差。

这种混淆会严重干扰模型的学习过程使得最终融合得到的“多模态表示”不准确、不鲁棒从而影响下游任务如分类、预测的性能。

2 方法图1以图像和文本模态为例。

Enc和Dec分别代表编码器和预测头。

箭头表示前向路径。

(a)多模态中间融合模型的原始流程。

(b)包含FCD模块的多模态中间融合流程该模块以单模态特征作为输入输出协同成分粉色双线轴箭头、独特成分绿色三线轴箭头和冗余成分灰色虚线箭头。

为了解决上述问题本文的设计核心思想是像侦探破案一样对每个模态的特征进行“因果分解”区分出哪些是“真线索”哪些是“干扰项”。

这一思想主要基于因果推断理论。

简单来说因果推断旨在超越数据表面的相关性比如“冰淇淋销量增加”与“溺水人数增加”相关找到事件之间真正的因果关系两者都因为“夏天到了”而增加。

本文将这一工具引入多模态学习。

具体的设计原则分为三步**分离“共性”与“个性”**假设每个模态的特征由两部分构成模态不变部分所有模态共有的信息即“一致性信息”和模态特定部分只属于该模态的信息。

从“个性”中剔除“噪声”保留“精华”这是最关键的创新。

作者认为模态特定部分并不全是宝它混杂了有用的独特信息真正的互补信息和有害的噪声信息不确定性。

需要将它们分开。

本文采用因果推断中的后门调整方法。

对齐“共性”对比“噪声”**对齐共性**对于从各模态分离出的“模态不变部分”协同成分使用一个共享参数的神经网络并配合一种特殊的距离度量Sinkhorn散度将它们映射到同一个特征空间中对齐。

这确保了不同模态对同一事物的描述是“同频”的。

**对比噪声**对于被分离出的“噪声”冗余成分让模型学习区分它们来自哪个模态。

这反过来帮助模型更好地识别和剥离噪声强化每个模态的特定属性。

4通过视觉嵌入蒸馏提升多模态大语言模型的视觉感知能力传统的多模态大语言模型通常仅通过自然语言监督进行训练这导致模型过度偏向语言理解而忽视了数据中丰富的视觉感知信号如深度、空间关系从而在具身智能和机器人等需要精细视觉推理的领域表现不佳。

本文试图解决的核心问题是如何在不大幅增加推理开销例如使用多个视觉编码器的前提下有效提升MLLM的视觉感知能力

1 背景知识尽管现有的MLLM在描述图片内容、回答一般性问题方面已经做得不错但它们存在一个明显的短板缺乏精细的视觉感知能力。

当前的MLLM在训练时主要目标是“预测下一个词”。

例如给模型看一张猫的图片和文字“这是一只”模型的目标是学会预测出“猫”。

这种训练方式让模型非常擅长语言关联和描述但却忽视了图片本身蕴含的丰富几何与物理信息比如深度、距离、精确的空间布局等。

现有解决方案的局限为了弥补这个缺陷最近的一些研究尝试给模型装上“多副眼镜”——即使用多个专门的视觉编码器。

比如一个编码器专门看物体轮廓分割一个专门估计距离深度估计。

把这些信息都喂给语言模型确实能提升它的空间推理能力。

但这种方法效率低下且需要海量的标注数据来训练不适用于资源有限的场景。

因此本文要解决的核心挑战是能否在不增加推理开销不用多副“眼镜”的前提下从根本上提升MLLM“大脑”自身的视觉感知能力

2 方法图1将视觉信息融入大语言模型的不同范式如图1所示(a, b)现有方法将视觉编码器的特征输入大语言模型仅采用自然语言监督即下一词预测NTP进行训练以实现视觉编码器与大语言模型嵌入空间的对齐。

©我们提出从一组辅助视觉编码器(Etarget)中提取目标视觉信息并将其蒸馏至大语言模型的中间表征层。

训练过程中在选定的大语言模型层级采用预测性嵌入优化方法同时最小化嵌入损失和NTP损失函数从而形成以视觉为中心的多模态大语言模型训练方案。

推理阶段仅使用单一基础视觉编码器。

图2VisPer-LM的架构论文最主要的创新点提出了VisPer-LM这是首个在MLLM的预训练阶段通过视觉嵌入蒸馏将专家视觉编码器的知识直接注入到LLM隐藏表示中的方法。

**视觉表示质量与性能关联的发现**通过系统的探测实验首次揭示了MLLM内部视觉表示质量通过其与专家视觉特征的余弦相似度衡量与下游视觉问答性能之间存在强正相关。

这为直接优化LLM内部的视觉表示提供了理论依据。

**耦合优化目标**在预训练阶段将目标从单一的下一个词元预测扩展为耦合优化既预测下一个文本词元也通过嵌入预测器预测专家视觉特征。

这为模型训练引入了直接的视觉感知监督信号。

**中间层知识蒸馏**基于探测实验发现LLM的中间层第

层视觉表示质量最佳VisPer-LM选择在这些关键层注入视觉知识而非简单地输入特征。

**高效的单编码器推理**训练时利用多个专家编码器深度、分割、生成进行知识蒸馏但推理时仅需一个基础视觉编码器在性能和效率间取得了优越的平衡。

AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。

大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​

AI大模型学习路线图还有视频解说全过程AI大模型学习路线​

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

911大唐唐伯虎高三-911大唐唐伯虎高三应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123