核心内容摘要
白桃少女芋圆:一口入魂的甜蜜与惊喜,酥到心底的温柔触感
刚刚商汤开源了多模态自主推理模型 SenseNova-MARS8B/32B 双版本。
SenseNova-MARS通过强化学习动态整合图像搜索、文本搜索与图像裁剪工具在多模态搜索与推理的核心基准测试中超越了Gemini-3-Pro与GPT-
2。
像侦探一样思考与行动视觉语言模型VLM展现了令人印象深刻的能力它们能看图说话能理解基本的视觉信息。
但现实世界的挑战比一张静态图片复杂得多。
例如当你面对一张F1赛车的照片想要知道车手衣服上那个黑色小Logo所代表公司的成立年份与车手出生年份的差值时传统的模型往往会陷入困境。
它们要么看不清那个微小的Logo要么不知道这家公司的历史信息。
这是因为模型缺乏主动获取外部知识的能力以及缺乏对高分辨率图像进行细粒度分析的手段。
SenseNova-MARS能模拟人类解决复杂问题的过程。
当人类面对上述赛车问题时会经历一个严密的推理链条首先放大图片看清Logo上的文字确认公司名称然后去搜索引擎查询这家公司的成立时间接着用图片搜索确认车手的身份最后查出车手的出生年份并进行计算。
SenseNova-MARS通过强化学习RL掌握了这套流程它将图像搜索、文本搜索和图像裁剪这三把利器无缝集成到了自己的推理过程中。
这个过程在上图中得到了生动的展示。
模型并没有急于给出答案而是先生成了一个思考标签。
它意识到必须先看清Logo于是调用了Image Crop图像裁剪工具框选了坐标[
35,
45,
38,
48]的区域。
这一步相当于人眼凑近了观察。
得到清晰的裁剪图后模型认出了Castore这个品牌。
紧接着它发现自己不知道Castore哪一年成立于是调用Text Search文本搜索工具输入查询词castore founding year。
搜索引擎返回了结果2015年7月5日。
模型并未停下脚步它还需要确认车手是谁。
它再次调用Image Search图像搜索将原始图片输入搜索引擎。
搜索结果显示这是Max Verstappen。
最后一步模型再次使用文本搜索查询Max Verstappen birth得知他出生于1997年。
此时所有的拼图都已齐备模型最终输出了确定的答案。
这是一个多步规划、动态调整、工具协同的复杂推理过程。
SenseNova-MARS构建了一个包含三种核心动作的行动空间。
文本搜索工具利用Serper Search API让智能体能够接入互联网的浩瀚知识库。
为了防止过长的网页内容淹没模型的上下文窗口系统巧妙地引入了一个Qwen
B模型对搜索结果进行摘要只保留最关键的前五条信息。
图像搜索工具则执行反向图像检索它能帮助模型理解视觉上相似或相关的物体这对于识别名人、地标或生僻物体至关重要。
为了提高训练效率研究团队甚至预先缓存了训练数据中所有可能的图像搜索结果。
很多高分辨率图片中的关键线索往往只占画面极小的比例可能不到5%。
传统的模型直接处理整图时往往会将图片压缩到较低的分辨率导致这些细节丢失。
图像裁剪工具允许智能体基于之前的观察指定一个归一化的边界框获取该区域的高清视图。
这相当于给模型配备了一个数码变焦镜头让它能够进行像素级的细粒度分析。
模型在每一轮对话中都会根据当前的观察结果自主决定是继续搜集信息还是信息已经足够可以回答问题。
算法创新与稳定训练教会模型使用工具并不容易。
如果只是简单地告诉它用工具它可能会胡乱操作。
为了让模型学会精准、高效地调度这些资源研究团队采用了一套两阶段的训练策略冷启动监督微调SFT和强化学习RL。
冷启动阶研究者精心构建了一个包含约3000条高质量样本的小型数据集。
数据生成的流水线非常严谨。
首先从FVQA、Pixel-Reasoner等现有数据集中筛选出那些模型回答错误的硬骨头问题。
然后利用Gemini-
5-Flash这样的先进模型合成出包含工具调用的完整推理轨迹。
最后由GPT-4o担任考官检查这些轨迹的格式是否规范、逻辑是否连贯、答案是否合理。
通过三重考验的数据才能进入训练集。
这个小规模的数据集虽然不大但足以让模型学会基本的工具调用格式和流程为后续的强化学习打下基础。
真正的质变发生在强化学习阶段。
研究团队提出了一个名为BN-GSPOBatch-Normalized Group Sequence Policy Optimization的算法。
这是对现有GSPO算法的重要改进。
在多模态和工具使用场景下不同的任务难度差异巨大奖励的尺度也各不相同。
有的任务可能只需要一步搜索就能得到1分奖励有的任务可能需要复杂的视觉分析和多次跳转即便做对了系统给予的奖励信号在数值上也可能存在波动。
模型作为一个策略网络不断地与环境交互生成包含思考、行动和观察的轨迹。
传统的GSPO虽然引入了组内标准化来降低方差但在处理这种高度异构的数据时仍然不够稳定。
不同Prompt产生的轨迹长度、奖励大小差异会带来学习信号的偏差。
BN-GSPO的创新之处在于引入了批量归一化Batch Normalization。
不仅在同一个问题的不同采样回复Group之间进行归一化还在整个训练批次Batch的层面上对优势函数Advantage进行二次归一化。
这种双重归一化机制极大地稳定了训练过程。
它平滑了不同任务之间的难度差异确保模型不会因为某些简单任务的高奖励而跑偏也不会因为困难任务的低反馈而气馁。
在奖励模型的设计上团队采用了结果导向与过程规范相结合的方式。
总奖励由两部分组成答案准确性奖励和格式合规性奖励。
答案对不对由GPT-4o进行评判格式对不对则由严格的解析器检查。
只有当模型严格遵守思考-工具调用的交替格式并且最终给出了正确答案它才能获得满分。
BN-GSPO算法的有效性在消融实验中得到了证实。
相比于普通的GRPO或GSPO算法BN-GSPO在所有基准测试中都取得了更优异且均衡的成绩。
高分辨率与搜索评测为了验证这样一个强大的智能体现有的考卷显得有些过时。
传统的评测基准如FVQA或MMSearch大多使用标准高清或更低分辨率的图片问题也主要集中在整体场景的理解上。
它们无法考察智能体是否真的看清了细节也难以检验智能体结合外部知识进行复杂推理的能力。
研究团队因此构建了HR-MMSearch基准测试。
HR-MMSearch是一个专门为细粒度感知和搜索推理设计的魔鬼考题。
它包含305张4K分辨率的超高清图像。
这些图像覆盖了体育、休闲文化、科技、商业金融、游戏等8个不同的高频领域。
为了防止模型通过记忆训练数据中的知识作弊所有图片都严格选自2025年的最新事件。
确保模型回答问题时必须依赖实时的工具调用而不是吃老本。
在问题的设计上研究者也下足了功夫。
每个问题都经过人工精心打磨专注于图像中那些微小或不显著的物体或者是占据画面面积不到5%的文字信息。
这强制模型必须使用图像裁剪工具来获取细节同时必须结合搜索工具来获取背景知识。
例如图片可能是一张2025年某次科技展会的全景图问题可能问的是角落里某个展台上海报提到的技术的发明者是谁。
这个基准为评估Agentic VLM代理式视觉语言模型提供了一个更加严苛和真实的测试场。
它不再满足于模型大概看懂了什么而是要求模型精准地看清细节并准确地查证事实。
这种评测更多地关注模型解决实际复杂问题的能力而不仅仅是刷榜。
超越商业闭源模型SenseNova-MARS-8B和SenseNova-MARS-32B分别基于Qwen3-VL-8B-Instruct和Qwen
VL-32B-Instruct开发。
实验结果显示SenseNova-MARS在多个维度上都达到了目前开源领域的最高水平SOTA甚至在部分指标上超越了顶级的闭源商业模型。
在面向搜索的基准测试中SenseNova-MARS-32B在MMSearch上得分
7
3在HR-MMSearch上得分
5
4。
这个成绩不仅超过了Gemini-3-Pro甚至击败了GPT-
2。
即使是小参数量的SenseNova-MARS-8B其表现也足够惊艳。
它在各项指标上全面优于Gemini-3-Flash和GPT-5并且是同等规模开源模型中的佼佼者。
它比MMSearch-R1高出
1
71分比DeepEyesV2等模型也有显著优势。
在细粒度视觉理解方面SenseNova-MARS同样表现出色。
在V* Bench和HR-Bench 4K等测试中32B版本的模型分别取得了
9
2和
9
2的高分。
这个成绩超过了庞大的Qwen3-VL-235B-A22B模型。
当开启Agentic Model智能体模式时模型的性能相比Direct Answer直接回答模式有了质的飞跃。
例如在HR-MMSearch上Qwen3-VL-32B如果直接回答只能得
1
02分但SenseNova-MARS-32B作为智能体去回答得分飙升至
5
43。
这巨大的分差正是工具使用和多步推理带来的红利。
模型不再是凭空猜测而是有理有据地去寻找答案。
实验还揭示了数据分布对模型性能的微妙影响。
如果只用细粒度感知数据训练模型在V* Bench上的表现会提升到
8
24但在搜索任务上会大幅退化。
反之亦然。
只有使用混合了搜索任务和感知任务的完整数据集模型才能在两个领域都取得最佳平衡。
在知识密集型的MMSearch任务中模型主要依赖图像搜索和文本搜索黄色和蓝色部分几乎很少用到裁剪。
而在HR-MMSearch这种既需要看细节又需要查知识的任务中工具的使用变得非常均衡裁剪工具绿色部分的调用比例显著增加。
这种自适应的工具选择能力正是强化学习赋予模型的智慧。
它不是机械地按顺序调用工具而是根据任务的特点灵活地制定解题策略。
SenseNova-MARS让多模态大模型从被动问答向主动探索迈出了关键一步。
通过合理的算法设计和高质量的数据训练我们完全可以构建出能够应对真实世界复杂挑战的智能助手。
参考资料https://arxiv.org/pdf/
2