首页速度优化比特币：数字黄金的诞生与演进

网站优化

消防数字展厅智能升级|AR消防巡检员体验系统

手把手教你用REX-UniNLU批量处理文本，提升工作效率

2026-06-08 19:35:30

阅读时长:8分钟

562次阅读

核心内容摘要

【Linux系统编程】进程控制完全指南：从fork创建、优雅终止到进程等待的全面解析

Altium许可证优化对设计效率提升

本文提出STRUCTURE方法解决了多模态对齐中数据稀缺的问题。

通过保留预训练单模态模型的内在几何结构和基于相似性的层选择策略该方法仅需数万对配对样本而非传统方法的数亿对即可实现有效对齐。

特别适用于医疗、生物等数据获取成本高昂的领域让强大的单模态模型能够协作发挥更大价值。

这篇论文试图解决的核心问题是能否在仅使用极少量例如数万对配对多模态样本的情况下将预训练的单模态基础模型有效地对齐到一个共享的表示空间中这旨在克服现有方法需要数百万甚至数亿配对数据的限制以适用于医疗、生物等数据获取成本高昂的领域。

背景知识单模态模型这些模型专门处理一种类型的数据即“模态”。

例如像GPT这样的大语言模型是文本专家而像ViT这样的视觉模型是图像专家。

近年来这些模型通过在海量数据上训练取得了惊人的成就甚至在某些任务上超越了人类。

**多模态模型**然而真实世界是丰富多彩的。

我们理解事物时常常需要结合多种信息。

多模态模型的目标就是让AI能够同时理解和关联文本、图像、声音等多种信息。

多模态模型应用无处不在搜索引擎可以让你用文字搜图片医疗诊断需要结合医学影像视觉和病历报告文本自动驾驶汽车需要同时“看懂”路况视觉和“听懂”导航指令语音。

实现多模态理解的关键一步是将不同模态的信息映射到同一个“意义空间”这样一张猫的图片和“猫”这个文字概念在AI的“大脑”里就会靠得很近从而实现跨模态的检索、比较和推理。

**目前构建强大多模态模型的主流方法如著名的CLIP模型存在一个巨大的瓶颈它们极度依赖海量的“配对数据”。

所谓配对数据就是成对出现的、内容相关的不同模态数据。

**CLIP这样的模型需要数亿对这样的数据来学习如何将图像和文本对齐到同一个空间。

**在许多专业和重要的领域如医疗、生物科学、特定工业场景获取这种高质量、大规模、精确配对的跨模态数据极其困难、昂贵且耗时。

**医生不可能为每张X光片都配上详尽且标准的文字描述生物学家也无法为每个蛋白质结构找到海量的对应文献。

这就导致在这些数据稀缺的领域我们空有强大的单模态专家模型却无法让它们“携手合作”发挥出112的价值。

因此一个核心的挑战摆在我们面前我们能否利用现成的、已经训练好的单模态专家模型只使用非常少量的配对数据比如几万对而不是几亿对就将它们有效地“对齐”到一个共享的理解空间中这篇论文正是要回答这个极具现实意义的问题。

方法图1有限数据下跨模态对齐方法的概述。

目标是将来自两种模态如图像和文本的表征对齐到一个共享的嵌入空间中。

核心挑战在于当仅有少量配对数据可用时如何引导模型找到良好对齐的解决方案而非错位的方案。

1 问题形式化我们考虑在独立预训练的单模态编码器之间对齐表示的任务。

如图1所示我们保持编码器冻结并学习轻量级的对齐函数将每个模态的潜在空间映射到一个共享空间其中语义相关的样本彼此接近。

设和为两个预训练单模态编码器的潜在空间对应于编码器最后层或中间层的输出和是各自的维度不需要相等。

给定个配对多模态样本其中。

目标是学习两个对齐函数和将模态特定空间映射到共享嵌入空间维度为k当配对样本比任何非配对样本更接近时共享空间中的对齐就实现了其中表示相似性函数如余弦相似度。

与先前工作使用数千万配对样本不同我们专注于N相对较小即数万样本的挑战性条件。

这对应于现实世界中的数据稀缺场景如医疗、生物科学等领域。

表1模态对齐框架下现有方法及我们方法的概述。

LC代表CLIP[7]中的标准对称对比损失。

RS表示STRUCTURE即我们工作中提出的正则化项。

我们将不同对齐方法统一到一个包含三个主要组件的联合框架中

模态特定潜在空间和

对齐函数和

目标函数指导共享空间的构建表1

总结了现有方法如何实例化这些组件。

论文工作提出一个通用框架可以通过STRUCTURE正则化正则化任何目标函数并使用具有最高表征相似性的层作为模态特定潜在层。

论文提出两个关键组件STRUCTURE正则化保持每个模态潜在空间的内在几何结构和相似性引导的层选择策略选择具有最高表征相似性的层对。

这两个组件可以无缝集成到现有对齐方法中。

2 STRUCTURE正则化保留邻域关系在配对样本有限的情况下保持预训练单模态编码器的潜在结构至关重要。

这些编码器在数百万甚至数十亿样本上训练编码了样本之间有意义的语义关系。

STRUCTURE正则化旨在在共享对齐空间中保持预训练单模态空间的邻域关系。

给定模态特定空间及其对应的共享空间正则化项确保和表达的关系之间的分层即多尺度一致性。

步骤1归一化和中心化.每个样本和首先进行归一化然后中心化以移除全局平移偏差归一化和中心化后的矩阵表示为步骤2计算相似性矩阵.使用温度计算缩放后的相似性矩阵步骤3转换为概率分布.应用行方向的softmax函数将相似性解释为概率分布步骤4构建多尺度关系.为了捕获在相似性图上恰好跳可达的关系我们为每个分层级别定义其中是总级别数。

对于一个方阵P其幂次是通过重复的矩阵乘法定义的即P l P P ⋅ ⋅ ⋅ P P^l P P · · · PPlPP⋅⋅⋅P共个因子不应与逐元素指数运算混淆通常( P l ) _ i j ≠ P l _ i j (P^l)\_{ij} ≠ P^l\_{ij}(Pl)_ijPl_ij。

重复的矩阵乘法本质上就是计算多跳可达关系。

3 Jensen-Shannon散度测量我们的正则化的关键思想是强制和捕获的结构关系之间的一致性即嵌入空间中的相对位置和邻域结构。

我们采用Jensen-Shannon散度JS散度因其对称性来测量相似性分布之间的差异。

在每个级别我们定义级别特定的散度为其中是Kullback-Leibler散度。

实践中添加一个小常数以确保数值稳定性。

STRUCTURE正则化的最终公式是跨级别散度的加权平均其中较低级别被更重地加权以抵消较高级别更集中的分布我们表示为在个级别上操作的正则化如果未另行指定则设置为1。

与用于表示对齐的任何目标函数如工作中的一起组合损失定义为其中是正则化权重。

4 基于相似性的层选择Similarity-based layer selection在参数冻结的对齐中对齐质量与单模态表示空间之间的表征相似性密切相关。

给定两个单模态基础模型这些空间通常对应于模型的不同层。

因此选择适当的层进行对齐至关重要。

先前工作仅依赖于对齐模型的最后一层忽略了基于层的相似性。

论文提出以下层选择程序**计算表征相似性**在少量配对样本约5,000对上计算所有层对之间的表征相似性以互k近邻mutual kNN (MkNN)衡量通常从训练集中随机选择**选择最相似的层**选择具有最高相似性的层进行对齐在本文的工作中论文根据Rice准则计算表征相似性。

论文证明这种选择程序在不同子集大小和重复中产生一致的结果。

AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。

大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

消防数字展厅智能升级|AR消防巡检员体验系统

核心内容摘要

Altium许可证优化对设计效率提升

背景知识单模态模型这些模型专门处理一种类型的数据即“模态”。

方法图1有限数据下跨模态对齐方法的概述。

1 问题形式化我们考虑在独立预训练的单模态编码器之间对齐表示的任务。

模态特定潜在空间和

对齐函数和

目标函数指导共享空间的构建表1

总结了现有方法如何实例化这些组件。

2 STRUCTURE正则化保留邻域关系在配对样本有限的情况下保持预训练单模态编码器的潜在结构至关重要。

3 Jensen-Shannon散度测量我们的正则化的关键思想是强制和捕获的结构关系之间的一致性即嵌入空间中的相对位置和邻域结构。

4 基于相似性的层选择Similarity-based layer selection在参数冻结的对齐中对齐质量与单模态表示空间之间的表征相似性密切相关。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

每日大赛吃瓜在线爆料最新一期-每日大赛吃瓜在线爆料最新一期应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

消防数字展厅智能升级|AR消防巡检员体验系统

核心内容摘要

Altium许可证优化对设计效率提升

背景知识**单模态模型**这些模型专门处理一种类型的数据即“模态”。

方法图1有限数据下跨模态对齐方法的概述。

1 问题形式化我们考虑在独立预训练的单模态编码器之间对齐表示的任务。

模态特定潜在空间 和

对齐函数 和

目标函数 指导共享空间 的构建表1

总结了现有方法如何实例化这些组件。

2 STRUCTURE正则化保留邻域关系在配对样本有限的情况下保持预训练单模态编码器的潜在结构至关重要。

3 Jensen-Shannon散度测量我们的正则化的关键思想是强制 和 捕获的结构关系之间的一致性即嵌入空间中的相对位置和邻域结构。

4 基于相似性的层选择Similarity-based layer selection在参数冻结的对齐中对齐质量与单模态表示空间 之间的表征相似性密切相关。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​

AI大模型学习路线图还有视频解说全过程AI大模型学习路线​

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

每日大赛吃瓜在线爆料最新一期-每日大赛吃瓜在线爆料最新一期应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

背景知识单模态模型这些模型专门处理一种类型的数据即“模态”。

模态特定潜在空间和

对齐函数和

目标函数指导共享空间的构建表1

3 Jensen-Shannon散度测量我们的正则化的关键思想是强制和捕获的结构关系之间的一致性即嵌入空间中的相对位置和邻域结构。

4 基于相似性的层选择Similarity-based layer selection在参数冻结的对齐中对齐质量与单模态表示空间之间的表征相似性密切相关。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

相关优化文章推荐