Ostrakon-VL-8B赋能微信小程序:开发智能识图与问答功能

核心内容摘要

阿尔托大学与帕多瓦大学研究:大语言模型知识图谱质检能力评估
Deepoc具身模型开发板:智能采摘机器人的技术突破与产业实践

C 语言内存操作函数入门:memcpy、memmove、memset、memcmp

Enhancing Multi-Image Understanding through Delimiter Token ScalingAuthors:Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk ChoeDeep-Dive Summary:通过缩放分隔符标记增强多图像理解Minyoung Lee1 ^11,Yejir Park1 ^11,Dongjun Hwang1 ^11,Yejin Kim1 , 2 ^{1,2}1,2,Seong Joon Oh2 , 3 ^{2,3}2,3,Junsuk Choe1 † ^{1\dagger}1†1 ^11西江大学 (Sogang University),2 ^22韩国科学技术院 (KAIST),3 ^33蒂宾根大学 (Tübingen University)摘要大型视觉语言模型LVLMs在单图像任务中表现强劲但在输入多张图像时性能会下降。

一个主要原因是跨图像信息泄漏 (cross-image information leakage)即模型难以区分不同图像的信息。

现有的 LVLMs 已经使用分隔符标记delimiter tokens来标识每张图像的开始和结束但我们的分析表明这些标记无法有效阻止跨图像信息泄漏。

为了增强其有效性我们提出了一种缩放分隔符标记隐藏状态的方法。

该方法通过增强图像内交互并限制不必要的跨图像交互增强了模型保留特定图像信息的能力。

因此模型能够更好地区分图像并进行更准确的推理。

实验表明在 Mantis、MuirBench、MIRB 和 QBench2 等多图像基准测试中该方法带来了性能提升。

我们进一步在需要清晰区分的纯文本任务上评估了该方法提升了多文档和多表格理解基准测试包括 TQABench、MultiNews 和 WCEP-10的性能。

值得注意的是我们的方法不需要额外的训练或推理成本。

代码可见https://github.com/MYM-young/DelimScaling1 引言大型视觉语言模型LVLMs在提供单张图像时表现出强大的理解能力。

然而当输入多张图像时其性能会显著下降。

最近的研究将其归因于模型无法清晰区分单张图像这种现象被称为跨图像信息泄漏。

结果导致生成的输出经常混淆不同图像的信息。

虽然现有模型引入了特殊的图像分隔符标记来区分图像但这些标记的作用和机制在文献中仍鲜有探讨。

为了填补这一空白我们分析了分隔符标记在模型中的功能。

通过对注意力分数的分析我们发现尽管这些标记在一定程度上辅助区分图像但跨图像交互仍然存在。

这表明当前模型难以完全隔离不同图像的视觉上下文最终导致信息泄漏。

为了理解这种行为我们研究了分隔符标记如何贡献于图像分离并确定了两个关键属性它们从其他图像标记中吸收注意力的能力以及它们在增强图像内交互中的作用。

基于这些见解我们提出了一种简单有效的方法通过缩放分隔符标记的隐藏状态来增强这两个属性。

这种方法在保留图像内交互的同时减少了跨图像交互从而帮助模型更有效地区分图像。

我们在多种多图像理解任务上验证了该方法显著提高了 Mantis、MuirBench、MIRB 和 QBench2 等数据集的性能。

此外在需要清晰隔离的多表格和多文档等纯文本场景中我们也观察到了持续的增益。

该方法在无需任何额外训练或推理开销的情况下实现了这些改进突显了其实用性和效率。

2 相关工作

1 多图像理解最近关于 LVLMs 多图像理解的研究主要分为基于训练的方法和无需训练的方法。

基于训练的方法如 Mantis通过构建多图像指令数据集进行微调但成本高昂。

无需训练的方法如 AVAM 利用文本-图像对齐选择相关区域但增加了结构复杂性FOCUS 采用对比解码策略但推理成本高每增加一张图需额外前向传播。

相比之下我们的方法在无需训练、无推理开销且不改变架构的情况下增强了多图像理解。

2 大型语言模型中的 Sink Tokens最近的研究关注到某些标记通常是序列开头的BOS具有异常高的激活值被称为Sink Tokens汇聚标记。

它们作为隐式偏差项均匀地影响整个序列的注意力模式。

而在多图像 LVLMs 中图像分隔符标记也表现出高注意力但其行为是局部的主要关注对应图像内的标记这与全局性的 Sink Tokens 不同。

图 1图像分隔符标记对注意力图的影响。

(a) 带有分隔符标记时出现清晰的三角形模式标识图像边界。

(b) 去掉后这些模式消失。

© 用其他特殊标记如|im_start|替换后也会产生混淆。

3 跨图像信息泄漏这指模型无法清晰分离多个输入图像导致信息错误混合。

本文详细分析了分隔符标记的注意力模式揭示了泄漏产生的原因并提出了缓解策略。

3 图像分隔符标记真的有效吗尽管使用了特殊标记如 Qwen

5-VL 中的|vision_start|跨图像泄漏依然存在。

通过移除或替换这些标记我们发现分隔符标记对区分图像至关重要存在分隔符时注意力图显示出清晰的三角形块状模式图 1a。

移除或替换它们会导致这些边界消失并带来约 10 个百分点的性能下降。

局限性虽然它们有助于区分但并不能完全阻止跨图像交互图 1a 中的红框这说明其区分效果是不完整的。

4 通过分隔符标记进行图像级标记 (Image-wise Tagging)我们发现了分隔符标记的两个关键属性属性 1第i ii个图像分隔符标记接收来自第i ii张图像标记的强注意力形成一一对应关系。

属性 2分隔符标记的强注意力充当了“图像标签 (image tag)”从而增强了图像内交互。

数学表达如下注意力输出是值向量的加权和A t t e n t i o n ( Q q , K ≤ q , V ≤ q ) ∑ i ≤ q p q , i v i ∑ d ≤ q p q , d v d ∑ j ≤ q p q , j v j , d ∈ D , j ∉ D . ( 1 ) \mathrm{Attention}(Q_{q},K_{\leq q},V_{\leq q}) \sum_{i\leq q}p_{q,i}v_{i} \sum_{d\leq q}p_{q,d}v_{d} \sum_{j\leq q}p_{q,j}v_{j},\quad d\in \mathcal{D},j\notin \mathcal{D}. \quad (

Attention(Qq​,K≤q​,V≤q​)i≤q∑​pq,i​vi​d≤q∑​pq,d​vd​j≤q∑​pq,j​vj​,d∈D,j∈/D.(

其中D \mathcal{D}D是分隔符标记的索引集。

图像i ii中的所有标记共享一个共同的加性项p d i v d i p_{d_{i}}v_{d_{i}}pdi​​vdi​​它作为局部偏差增强了图像内的交互。

图 2(a) 对第二张图像分隔符的注意力。

(b) 图像标记值Tagging values。

图 3缩放图像分隔符标记对注意力的影响。

缩放后下分隔符标记成为强吸引子在区分图像的同时保留图像内交互属性 2。

5 方法我们提出通过缩放分隔符标记的隐藏状态来增强其判别能力。

设h t ( l ) h_{t}^{(l)}ht(l)​为第l ll层标记t tt的隐藏状态修改如下λ 1 \lambda 1λ1为缩放因子h t ( l ) ∗ { λ ⋅ h t ( l ) i f t ∈ D , h t ( l ) o t h e r w i s e . ( 2 ) h_{t}^{(l)*} \left\{ \begin{array}{ll}\lambda \cdot h_{t}^{(l)} \mathrm{if} t \in \mathcal{D}, \\ h_{t}^{(l)} \mathrm{otherwise}. \end{array} \right. \quad (

ht(l)∗​{λ⋅ht(l)​ht(l)​​ift∈D,otherwise.​(

2)

1 该方法如何增强分隔符属性缩放隐藏状态增强了属性 1增加其接收的注意力。

由于 Softmax 的归一化作用强化分隔符会相应减少对其他图像标记的注意力从而降低跨图像交互。

同时缩放也增加了值向量v d v_dvd​的幅度从而通过增加p d i v d i p_{d_i} v_{d_i}pdi​​vdi​​项的贡献来维持并加强图像内交互属性 2。

2 经验证据在使用 Qwen

5-VL-3B 的实验中减少跨图像泄漏跨图像交互下降了约50 % 50\%50%见图 4 和图 5a。

保留图像内交互图像内部的交互基本不受影响见图 5a 右侧。

图 4应用该方法前后注意力图的定性对比。

应用后跨图像交互明显减少。

图 5(a) 缩放前后图像间交互的变化。

(b) 缩放后图像标记效应增强。

3 讨论计算优势该方法与 FlashAttention 兼容。

直接修改注意力权重会极大增加内存负担而我们的方法非常高效。

保留文本-图像交互实验显示文本-图像交互仅下降约10 % 10\%10%模态间的整体交互保持稳健。

6 实验

1 基准测试与设置我们在四个多图像基准Mantis, MuirBench, MIRB, QBench2以及多文档MultiNews, WCEP-10和多表格TQABench基准上进行了评估。

表 1四个多图像基准测试的性能。

在 Qwen

5-VL、InternVL3 和 LLaVA-OneVision 系列模型上均有提升。

DatasetModelQwen

5-VL 3BQwen

5-VL 7BQwen

5-VL 32BInternVL3 1BInternVL3 2BInternVL3 8BInternVL3 14BLLaVA-OV

5BLLaVA-OV 7BMantisBaseline

59.

9168.

6668.

2047.

0052.

0767.

2871.

8940.

0

21 Ours

63.

1369.

1270.

0549.

7754.

3869.

1272.

8141.

0

06MuirBenchBaseline

37.

3145.

2353.

1228.

6227.

6936.

8842.

4224.

5

04 Ours

42.

4248.

1553.

8229.

3827.

6536.

9242.

5824.

8

35MIRBBaseline

56.

4563.

5754.

9038.

4944.

3852.

3256.

4531.

7

88 Ours

57.

3863.

0555.

2140.

2546.

9652.

6357.

5932.

3

19QBench2Baseline

62.

7075.

8081.

4050.

8065.

2076.

5079.

6051.

7

90 Ours

63.

3076.

5081.

7050.

2065.

6076.

6080.

1051.

9

20表 2WCEP10 结果ROUGE 分数。

ModelR-1R-2R-LQwen

2.

B

27.

309.

7

42 Ours

27.

529.

9

47Qwen

2.

B

29.

7411.

5

30 Ours

29.

7711.

7

35Phi-

1.

59.

571.

4

94 Ours

9.

801.

4

09表 3MultiNews 结果ROUGE 分数。

ModelR-1R-2R-LQwen

2.

B

37.

1610.

8

81 Ours

37.

2410.

9

84Qwen

2.

B

37.

1811.

2

15 Ours

37.

1911.

2

17Phi-

1.

526.

305.

7

55 Ours

26.

365.

7

61表 4TQABench 准确率。

ModelAccuracyQwen

2.

B

3

38 Ours

3

84Qwen

2.

B

3

50 Ours

3

14表 5关于分隔符、M-RoPE 和我们方法的消融实验。

DelimM-RoPEOursAccuracy✓××

5

91×✓×

5

92✓✓×

6

21✓×✓

63.

1

2 实验结果多图像理解结果。

如表 1 所示我们的方法在 Qwen

5-VL、InternVL3 和 LLaVA-OneVision 等所有模型系列中均一致地提升了性能。

这种提升在 Mantis、Muirbench、MIRB 和 Qbench2 等广泛的基准测试中均有体现证明了我们方法的稳健性。

例如在 Muirbench 基准测试中Qwen

5-VL-3B 模型的得分从

3

31 提升至

4

42在 Mantis 上InternVL

B 模型从

5

07 提升至

5

38。

值得注意的是从规模较小如

5B到规模较大如 32B的模型都出现了性能增益这表明所提出的分隔符标记缩放方法delimiter token scaling在各种模型容量下都是有效的。

这些在不同模型和多图像理解基准测试中取得的一致性改进凸显了我们方法的通用性和实用性。

多文档和多表理解结果。

表 2 和表 3 展示了在多文档摘要任务上的 ROUGE 分数。

在 WCEP10 和 MultiNews 数据集上所提出的分隔符标记缩放方法在所有模型中都一致地提高了 ROUGE-

ROUGE-2 和 ROUGE-L 分数。

在 Qwen

2.

B 和 Phi-

5 模型中也观察到了类似的改进。

表 4 进一步显示了在多表推理基准测试 TQABench 上的持续增益。

值得注意的是应用我们方法的 Qwen

2.

B 模型甚至优于 7B 的基线模型这是一个令人瞩目的结果。

这表明我们的分隔符标记缩放方法可以产生超出通过增加模型规模所能获得的性能增益。

图 6Mantis 基准测试的定性结果。

虽然任务是多选题但答案以句子形式呈现以展示我们的方法减少了跨图像泄露而基线 Qwen

5-VL 则失败了。

这些结果证明了我们的方法广泛适用于不同的输入模态而不仅仅局限于多图像设置。

定性结果。

我们在图 6 中对模型输出进行了定性分析。

在图 6a 中基线模型错误地声称两张图像中都有人在骑自行车而实际上只有第二张图像包含此内容。

这展示了一个跨图像信息泄露cross-image information leakage的案例即来自第二张图像的信息污染了对第一张图像的理解。

相比之下我们的方法使模型能够正确识别只有第二张图像包含骑自行车的人。

在图 6b 中正确答案是“北极熊和骆驼”每种动物出现在不同的图像中。

然而基线模型返回了“骆驼和北极熊”颠倒了对应关系。

通过我们的方法模型保留了两张图像之间的区别并得出了正确答案。

这些例子表明我们的方法有效地减少了跨图像信息泄露从而在多张图像之间实现了更准确、去耦合的推理。

与 M-RoPE 的比较。

在 Qwen2-VL 中时间位置嵌入temporal positional embeddings被应用于视频帧以便在时间轴上区分它们。

这在概念上与我们的图像特定标记方法相似。

受此启发我们与基于 M-RoPE 的时间嵌入方法进行了对比实验其中每张图像都被注入了时间位置嵌入。

如表 5 所示仅应用 M-RoPE 导致的性能低于基线。

当 M-RoPE 与图像分隔符标记结合使用时性能虽然超过了基线但仍然落后于我们的方法。

这些发现表明引入帮助模型更好区分图像的机制——如 M-RoPE 或分隔符标记——可以减轻由跨图像信息泄露引起的性能下降。

值得注意的是虽然 M-RoPE 最初是为视频任务中的时间区分设计的但它也能提高多图像设置下的性能。

这进一步支持了我们的假设即图像区分度不足是性能下降的关键原因。

总的来说这些结果表明我们简单的隐藏状态缩放方法在解决此类混淆方面比更复杂的时间嵌入策略更有效。

与 Focus 的比较。

我们将我们的方法与 Focus 进行了比较Focus 是之前旨在减轻跨图像信息泄露的方法。

为了公平起见我们对超参数进行了网格搜索总共得到 81 种配置并选取性能最好的一种进行比较。

如表 6 所示我们的方法在 Mantis 基准测试中持续优于 Focus。

表 7 还显示Focus 导致了更高的内存使用并导致 Qwen

5-VL-72B 和 InternVL

B 出现显存溢出OOM错误。

在显存VRAM使用方面我们的方法显著更具效率峰值消耗约为 Focus 的一半。

此外它在运行时间上也更高效。

这些发现证实了我们的方法不仅能产生显著的性能提升还能保持优越的资源效率。

交错示例的 Few-Shot 评估。

我们还进行了 Few-Shot 评估。

我们将单图像数据集重组为 Few-Shot 设置构建了 4-shot 的交错interleaved输入其中每张图像后面依次跟着相应的问答。

在 TextVQA 和 OKVQA 的验证集切片validation-lite上评估此设置。

表 8在 OKVQA 和 VizWiz 上的 Few-shot 性能。

数据集模型Qwen

5-VL 3BQwen

5-VL 7BInternVL3 8BOKVQA基线 我们的方法

1

04→ \rightarrow→

20.

0

56→ \rightarrow→

28.

2

84→ \rightarrow→

4

68VizWiz基线 我们的方法

4

38→ \rightarrow→

42.

8

70→ \rightarrow→

54.

3

04→ \rightarrow→

5

92如表 8 所示我们在 Qwen

5-VL-3B、Qwen

5-VL-7B 和 InternVL

B 上观察到了一致的性能改进。

由于此任务需要理解示例图像及其伴随的文本图像-文本交互至关重要。

性能的提升证明了我们的方法也可以有效地应用于图像与文本关系重要的下游任务。

这些发现进一步表明我们的方法适用于交错数据并且在 Few-shot 设置下依然有效展现了其能够推广到更广泛场景的能力。

在大规模模型上的表现。

我们在更大规模的模型上进行了额外实验。

我们在 Mantis 基准测试上使用 Qwen

5-VL-72B 和 InternVL

B 对我们的方法进行了评估。

如表 9 所示结果显示两种模型在应用我们的方法时均表现出性能改进。

这表明随着模型规模的增加我们的方法依然有效并能可靠地应用于极大规模的模型。

超参数敏感性。

如图 7 所示我们尝试了λ \lambdaλ的一系列缩放值并分析了它们的影响。

结果显示与红虚线表示的基线相比大多数设置下的性能均有一致的提升这表明我们的方法对该超参数的波动具有稳健性。

这些发现支持了这样一个观点适当放大图像分隔符标记的隐藏状态可以有效缓解跨图像信息泄露。

图 7超参数λ \lambdaλ的敏感性分析。

7 结论在这项工作中我们通过分析图像分隔符标记负责分离视觉输入的作用和局限性解决了多图像输入设置中的跨图像信息泄露问题。

基于这一分析我们提出了一种简单的方法来增强这些标记的功能在保持同一图像内交互的同时有效地抑制了跨图像的交互。

我们的方法在各种多图像基准测试中一致地提高了性能并展示了其在纯文本设置如多文档和多表理解中的泛化能力。

该方法易于集成且不引入额外的训练或推理成本。

Original Abstract:Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model’s ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench

We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-

Notably, our method requires no additional training or inference cost.PDF Link:

2

01984v1部分平台可能图片显示异常请以我的博客内容为准

无风险9.1免费版安装正式版下载最新版V3.53.58.228-无风险9.1免费版安装正式版下载最新版应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123