首页速度优化唤醒内心深处的渴望：召唤魅魔义母，体验极致的宠爱与蜕变

网站优化

谁是最后的“忍界之神”？首届“寸止挑战大赛主题大赛”燃爆全网！

解锁“成人福利”的无限可能：不止于放松，更在于生活品质的升华

2026-06-09 18:23:10

阅读时长:3分钟

562次阅读

核心内容摘要

岁月沉淀的醇厚：探索“老太奶BBwBBw”的别样风情

中国人民大学、清华大学和腾讯联合提出Crab模型针对多模态视听场景理解任务提出显式互助学习新范式。

通过构建含详细时空信息的AV-UIE数据集以及具有Interaction-aware LoRA结构的模型框架实现了任务间的显式互助。

实验表明Crab在时序定位、空间定位、像素级理解和时空推理等任务上均超越或接近专用模型数据集、模型和代码已全部开源为多模态大模型发展提供了新思路。

我们人类生活在一个充满视觉和音频信息的世界中近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力衍生出了多种不同类型的任务它们分别要求模型具备不同层面的能力。

过去大量的工作主要聚焦于完成单一任务相比之下我们人类对周围复杂的的世界具有一个通用的感知理解能力。

因此如何设计一个像人类一样对视听场景具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。

当前主流的学习范式是通过构建大规模的多任务指令微调数据集并在此基础上直接做指令微调。

然而这种学习范式对于多任务学习而言是最优的吗最近中国人民大学高瓴人工智能学院 GeWu-Lab 实验室清华大学和北京腾讯 PCG AI 技术中心合作发表的 CVPR 2025 论文指出当前这种主流的学习范式忽视了多模态数据的异质性和任务间的复杂关系简单地将所有任务联合训练可能会造成任务间的相互干扰。

为了有效实现任务间的显示互助作者团队提出了多模态大模型学习的新范式分别从数据和模型两个角度实现了多模态场景理解任务的高效一统并在多个场景理解任务上超过了垂类专家模型数据集、模型和代码全部开源。

目前工作还在进一步拓展中欢迎感兴趣的领域专家加入共同构建一个统一的理解、生成与推理的框架。

论文标题Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation论文链接https://arxiv.org/abs/

2

13068项目主页https://github.com/GeWu-Lab/Crab统一的多模态场景理解能力展示时序定位输入一段音视频让模型找到发生的音视频事件并定位出时序片段。

空间定位输入一段音频和一张图像让模型定位出图片中发声的物体为止。

时空推理输入一段乐器演奏的音视频场景让模型回答相关问题涉及到时序和空间信息的理解以及推理。

像素级理解输入一段音频和一张图片让模型分割出图片中发声的物体具体包含 S4, MS3, AVSS 和 Ref-AVS 等多种分割任务。

视觉和听觉信息是我们人类接触最多的两类信息近年来已经有很多工作开始探究基于这两个模态的视听场景理解任务主要可以分为时序定位、空间定位、像素级理解和时空推理等四种不同类型的任务它们分别要求模型具备不同层面的能力。

过去大量的工作聚焦于完成单一任务相比之下我们人类对周围复杂的世界具有一个通用的感知理解能力。

因此让模型也像人类一样具有统一的视听场景理解能力是具有重要意义的。

随着多模态大语言模型的发展构建大规模的指令微调数据集并将各种不同的任务直接进行联合训练已经成为当前主流的学习范式。

然而这种学习范式忽视了多模态数据的异质性和任务间的复杂关系简单地将所有任务联合训练可能会造成任务间的相互干扰这种现象在之前的工作中已经被证实并且这个问题对于任务间差异较大的视听场景理解任务来说则更为重要。

为了有效解决上述问题本文分别从数据和模型的角度针对性地提出了一个统一的显示互助学习范式来有效实现任务间的显示互助。

为了明确任务间的互助关系首先构建了一个具有显示推理过程的数据集 AV-UIE它包含具体的时序和空间信息可以有效建立任务间的互助关系。

然后为了进一步在学习过程中促进任务间的相互协助本文提出了一种具有多个 Head 的类 MoE LoRA 结构每个 Head 负责学习多模态数据交互的不同层面通过这种结构将模型的不同能力解耦让任务间的互助关系显示地展现出来共享的能力在不同任务间建立起相互协助的桥梁。

AV-UIE: 具有显示推理过程的视听场景指令微调数据集从数据的角度来看现有视听场景理解数据集的标签是简单的单词或者短语这样简单的标签在训练过程中并不能显著地帮助到其它任务或者说只能以一种隐式的方式增强模型的训练效果我们并不能确保一定是对其它任务有帮助的。

为了进一步地促进任务间的显示互助并将互助关系显示地体现出来本文提出了具有显示推理过程的视听场景指令微调数据集 AV-UIE通过细化现有数据集的标签额外增加了显示的推理过程其中包含具体的时空信息这些信息明确了任务间的互助关系。

图

具有显示推理过程的 AV-UIE 数集构造流程和统计分析图 1 展示了具体的构建过程以及对数据集的统计分析通过 in-context learning 的方式利用现有的强大的多模态大模型进行标注从不同任务中的数据中获取音视频场景为了保证结果的准确性和推理过程的合理性原有数据的标签也作为输入让 Gemini

5 Pro 针对该场景输出带有时序和空间等信息的显示推理过程。

为了保证数据的质量最终再由人工进行检查纠正。

在训练过程中这些细化后的标签能够鼓励模型准确理解视听场景内容并输出相应的时空信息以此来增强模型特定的能力从而帮助到其它依赖这些特定能力的任务。

图 2 展示了 AVQA 和 AVVP 这两种任务实现显示互助的数据样例不同的颜色表示不同类型的时空信息这两个任务都能够受益于增强后的空间定位和时序定位能力。

图

AVQA 和 AVVP 任务通过显示推理过程实现相互帮助的示例AV-UIE 数据集包含九种任务的数据总共 200K 训练样本。

其中时序定位任务包含 AVE 和 AVVP数据占比

8%空间定位任务包含 ARIG数据占比

2

8%像素级理解任务包含 S4MS3AVSS 和 Ref-AVS数据占比

4

6%时空理解任务包含 AVQA数据占比

2

8%。

相比于其它的指令微调数据集尽管每一个任务的训练样本数比较小但是在显示推理过程的帮助下任务间的显示互助仍可以增强模型在单个任务上的性能。

Crab: 实现任务间显示互助的统一学习框架从数据的角度保证了模型可以输出带有时序信息的显示推理过程这是从结果上对模型进行约束显示地增强不同类型的能力但是如何保证模型在学习过程中可以有效地学到这些不同的能力呢为此本文提出了一个视听场景理解的统一学习框架图 3 展示了模型的整体架构主要包括三个统一的多模态接口分别用来处理 audio, visual 和 segmentation mask 数据一个具有 interaction-aware LoRA 结构的大模型用于在学习过程中有效学习数据交互的不同层面从而实现任务间的显示互助。

图

模型总体架构传统的 LoRA 结构由一组对称的 A 矩阵和 B 矩阵组成用于在下游任务上高效微调模型具有多组对称的 AB 矩阵的 LoRA MoE 结构通常被用来多任务微调每一组 LoRA 负责解决单个任务。

为了进一步地促进任务间的相互协助本文提出的 Interaction-aware LoRA 结构如图 4 所示由一个共享的 A 矩阵和多个不同的 LoRA Head B 矩阵组成每个 Head 期望去学习数据交互的不同层面进而具备不同的能力。

为了有效区分不同的 Head额外增加一个 Router 用来给不同的任务分配不同的权重。

例如在学习过程中时空推理任务 AVQA 聚焦于增强模型的时序和空间定位能力那么就会更多的激活对应 Head 的参数增强它们特定的能力而其它的时序定位和空间任务都可以受益于这些增强后的 Head。

从这个角度来说模型的能力被解耦成多个特定的能力模型可以显示地依赖这些能力完成不同类型的任务而多个任务间共享的能力建立起了任务间协助的桥梁。

图

具有多个 LoRA head 的 Interaction-aware LoRA 结构实验与分析为了证明显示互助学习范式的有效性本文分别对比了在所有任务上通用的模型以及在单个任务上专有的模型并提供了全面的消融实验对比结果。

表 1 展示了与多个任务上的通用模型的对比结果相比于其它模型本文提出的 Crab 统一学习框架在所有类型的任务上具有更加通用的理解能力并且在多个任务上取得了更好的表现。

这表明了 Crab 在视听场景通用理解能力方面的优越性。

表

与多个任务上的通用模型的对比结果表 2345 分别展示了与时序定位、空间定位、像素级理解和时空推理等四种类型任务的专有模型对比结果可以看到在 AVE、ARIG、AVQA 等任务上 Crab 均优于单个任务上的专有模型在 AVVP 和 AVS 任务上取得了相近的表现。

表 6 展示了全面的消融实验结果相比于单个任务简单的多任务 LoRA 微调并不能充分实现任务间的相互协助甚至在一些任务上可能会降低性能。

相比之下在显示互助的学习范式下任务间的相互干扰被有效缓解任务间的相互协助提高了单个任务的性能。

表

与时序定位任务专有模型对比结果表

与空间定位任务专有模型对比结果表

与像素级理解任务专有模型对比结果表

与时空推理任务专有模型对比结果表

全面的消融实验对比结果为了进一步证明任务间显示互助的过程本文对多个 LoRA Head 进行了可视化分析实验。

在推理过程中对于每个任务的多模态输入数据每个 LoRA Head 会产生一个权重权重越大表明完成该任务越依赖于这个 Head。

图 3 对比了 3 个 Head 在不同任务上的权重左图是 B1 和 B2右图是 B2 和 B3。

可以发现两点1相同类型的任务对不同 Head 的依赖程度是类似的它们对不同 Head 的依赖权重分别形成不同的簇2不同任务对 3 个 Head 的不同依赖性表明每个 Head 具备不同的能力。

这表明模型的能力被解耦成多种不同的能力多个任务间可能会依赖于同一种能力因此它们可以建立相互协助的关系。

图

3 个 LoRA Head 的权重可视化总述本文分别从数据和模型的角度出发提出了统一视听场景理解的显示互助范式来实现任务间的显示互助大量的实验结果以及可视化分析均证明了该范式的有效性。

我们希望本文提出的想法可以为该领域的发展提供新的研究视角并且在未来的工作中我们将聚焦于多模态推理的新范式希望将现有的多模态推理工作提升到一个新的高度。

AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。

大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

谁是最后的“忍界之神”？首届“寸止挑战大赛主题大赛”燃爆全网！

核心内容摘要

岁月沉淀的醇厚：探索“老太奶BBwBBw”的别样风情

13068项目主页https://github.com/GeWu-Lab/Crab统一的多模态场景理解能力展示时序定位输入一段音视频让模型找到发生的音视频事件并定位出时序片段。

5 Pro 针对该场景输出带有时序和空间等信息的显示推理过程。

AVQA 和 AVVP 任务通过显示推理过程实现相互帮助的示例AV-UIE 数据集包含九种任务的数据总共 200K 训练样本。

8%空间定位任务包含 ARIG数据占比

8%像素级理解任务包含 S4MS3AVSS 和 Ref-AVS数据占比

6%时空理解任务包含 AVQA数据占比

8%。

模型总体架构传统的 LoRA 结构由一组对称的 A 矩阵和 B 矩阵组成用于在下游任务上高效微调模型具有多组对称的 AB 矩阵的 LoRA MoE 结构通常被用来多任务微调每一组 LoRA 负责解决单个任务。

具有多个 LoRA head 的 Interaction-aware LoRA 结构实验与分析为了证明显示互助学习范式的有效性本文分别对比了在所有任务上通用的模型以及在单个任务上专有的模型并提供了全面的消融实验对比结果。

与时序定位任务专有模型对比结果表

与空间定位任务专有模型对比结果表

与像素级理解任务专有模型对比结果表

与时空推理任务专有模型对比结果表

全面的消融实验对比结果为了进一步证明任务间显示互助的过程本文对多个 LoRA Head 进行了可视化分析实验。

3 个 LoRA Head 的权重可视化总述本文分别从数据和模型的角度出发提出了统一视听场景理解的显示互助范式来实现任务间的显示互助大量的实验结果以及可视化分析均证明了该范式的有效性。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

51今日大赛-每日大赛,今日现场直播-51今日大赛-每日大赛,今日现场直播应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

谁是最后的“忍界之神”？首届“寸止挑战大赛主题大赛”燃爆全网！

核心内容摘要

岁月沉淀的醇厚：探索“老太奶BBwBBw”的别样风情

13068项目主页https://github.com/GeWu-Lab/Crab统一的多模态场景理解能力展示时序定位输入一段音视频让模型找到发生的音视频事件并定位出时序片段。

5 Pro 针对该场景输出带有时序和空间等信息的显示推理过程。

AVQA 和 AVVP 任务通过显示推理过程实现相互帮助的示例AV-UIE 数据集包含九种任务的数据总共 200K 训练样本。

8%空间定位任务包含 ARIG数据占比

8%像素级理解任务包含 S4MS3AVSS 和 Ref-AVS数据占比

6%时空理解任务包含 AVQA数据占比

8%。

模型总体架构传统的 LoRA 结构由一组对称的 A 矩阵和 B 矩阵组成用于在下游任务上高效微调模型具有多组对称的 AB 矩阵的 LoRA MoE 结构通常被用来多任务微调每一组 LoRA 负责解决单个任务。

具有多个 LoRA head 的 Interaction-aware LoRA 结构实验与分析为了证明显示互助学习范式的有效性本文分别对比了在所有任务上通用的模型以及在单个任务上专有的模型并提供了全面的消融实验对比结果。

与时序定位任务专有模型对比结果表

与空间定位任务专有模型对比结果表

与像素级理解任务专有模型对比结果表

与时空推理任务专有模型对比结果表

全面的消融实验对比结果为了进一步证明任务间显示互助的过程本文对多个 LoRA Head 进行了可视化分析实验。

3 个 LoRA Head 的权重可视化总述本文分别从数据和模型的角度出发提出了统一视听场景理解的显示互助范式来实现任务间的显示互助大量的实验结果以及可视化分析均证明了该范式的有效性。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​

AI大模型学习路线图还有视频解说全过程AI大模型学习路线​

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

51今日大赛-每日大赛,今日现场直播-51今日大赛-每日大赛,今日现场直播应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

相关优化文章推荐