9.1NBA免费看,2025潮流预警!抖音神操作,看完让你原地起飞!

核心内容摘要

星空无限,梦想启航:走进星空无限传媒有限公司的电视剧世界
高清中文:不止于清晰,更是情感的传递与文化的脉动

91资源在线观看:开启你的无限视界,探索精彩无限可能

attention本身是否真的能够作为“语义重要性”的可靠指标Attention真的可靠吗近年来Vision-Language ModelsVLMs在多模态理解任务中取得了显著进展尤其是在视觉问答、图像理解和视频理解等场景中模型通常通过language-to-vision attention来衡量视觉token与文本之间的相关性并据此进行visual token pruning以降低推理成本、提升运行效率。

然而一个长期被忽视的问题是attention本身是否真的能够作为“语义重要性”的可靠指标在最新研究中上海大学曾丹团队系统分析了主流VLM中attention的行为模式发现一个关键却容易被忽略的现象——attention并非只由语义决定而是受到显著的结构性偏置影响。

如果直接使用这些带偏置的attention进行visual token pruning往往会在无意中保留不重要的视觉区域同时丢失真正有助于任务理解的关键信息。

Attention的两个核心偏置来源

位置偏置Recency Biasattention更偏爱“后面的token”通过对大量样本的统计分析该团队发现语言到视觉的attention随着visual token在序列中的位置不断增大呈现出明显的单调上升趋势这意味着模型更倾向于关注序列靠后的视觉token。

在图像中这一现象往往表现为模型对图像下方区域给予更高的attention而这种偏好与图像语义本身并没有直接关系如相关可视化结果中曲线所示。

更为严重的是当attention被用于visual token pruning时这种位置偏置会被进一步放大从而导致剪枝结果系统性地保留“位置靠后但语义无关”的视觉token。

Padding Attention Sink空白区域为何获得高attention除了位置偏置之外该团队还观察到另一类更隐蔽的问题padding区域的attention异常偏高。

在许多VLM中由于输入图像尺寸不一致padding是不可避免的操作但这些区域在语义上并不包含任何有用信息。

尽管如此研究发现padding对应的视觉token在attention计算中经常获得异常大的权重其根源在于hidden state中出现了极端激活值从而诱发了所谓的attention sink现象。

这会直接误导基于attention的pruning策略使模型错误地保留空白区域。

核心思路对Attention本身进行Debiasing针对上述问题上海大学曾丹团队并没有提出新的pruning方法也没有引入额外的训练过程而是从一个更基础的角度出发既然attention本身是有偏的是否可以先对attention进行修正该团队的核心观察是attention中的偏置并非随机噪声而是呈现出稳定、可建模的整体趋势。

因此研究人员通过对attention随token位置变化的整体趋势进行拟合显式建模其中的位置偏置并在此基础上对原始attention进行去偏修正从而有效削弱与内容无关的位置因素使attention更加接近真实的语义相关性。

与此同时对于padding区域该团队在pruning阶段显式抑制其attention贡献避免attention sink对token排序产生干扰。

整个过程不涉及模型结构修改也不需要重新训练可在推理阶段直接使用。

实验结果在系统实验中该团队将attention去偏策略作为plug-and-play模块集成到多种主流attention-based visual token pruning方法中进行评估。

实验覆盖6种pruning baselines在多个主流VLM7B/13B上进行测试并验证于10个图像理解任务与3个视频理解任务。

实验结果表明在几乎所有设置下经过attention去偏修正后剪枝模型均取得了稳定的性能提升且在更激进的token压缩条件下效果尤为明显。

结论研究结果表明attention并非天然等价于语义重要性。

在Vision-Language Models中如果忽视attention中固有的结构性偏置基于attention的剪枝策略很容易被误导从而影响模型整体性能。

通过对attention进行简单而有效的去偏修正上海大学曾丹团队在不引入额外训练成本的前提下显著提升了visual token pruning的可靠性与泛化能力。

该工作为多模态模型的高效部署提供了新的视角也为后续更稳健的attention机制设计奠定了基础。

文章链接:https://arxiv.org/abs/

2

17807文章代码:https://github.com/intcomp/attention-bias作者上海大学、南开大学Kai Zhao¹Wubang Yuan¹Yuchen Lin¹Liting Ruan¹Xiaofeng Lu¹Deng-Ping Fan²Ming-Ming Cheng²Dan Zeng¹¹上海大学 通信与信息工程学院/计算机工程与科学学院²南开大学 计算机学院

吃瓜暗黑爆料免费高清观看-吃瓜暗黑爆料免费高清观看应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123