核心内容摘要
91黑料网:揭秘未知的网络角落,探索信息的新维度
今日商汤正式开源多模态自主推理模型 SenseNova-MARS8B/32B 双版本其在多模态搜索与推理的核心基准测试中以
6
74 分超越 Gemini-3-Pro
6
06 分、GPT-
5.
2
64 分。
SenseNova-MARS 是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型它能自己规划步骤、调用工具轻松搞定各种复杂任务让 AI 真正具备「执行能力」。
在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中SenseNova-MARS 取得开源模型中的 SOTA 成绩还超越 Gemini-
0-Pro、GPT-
2 等顶级闭源模型在搜索推理和视觉理解两大核心领域全面领跑。
更多细节请参见技术报告https://arxiv.org/abs/
2
24330欢迎开发者、各行业用户测试与体验。
全能冠军自主解决复杂问题SenseNova-MARS 在多项多模态搜索评测中展现出明显的领先优势平均得分达到
6
74 分成功超过了 Gemini-3-Pro 的
6
06 分与 GPT-
2 的
6
64 分。
在 MMSearch 榜单图文搜索核心评测中模型以
7
27 分登顶超 GPT-
5.
2
08 分HR-MMSearch高清细节搜索评测中以
5
43 分领先显著拉开与闭源模型的差距。
HR-MMSearch 的测试题目堪称「AI 界的奥林匹克」采用 305 张 2025 年最新的 4K 超高清图片确保 AI 无法依赖旧知识「作弊」所有问题都针对图片中占比不到 5% 的细节比如小标志、小字、微小物体必须用图像裁剪工具才能看清覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域60% 的问题都需要至少使用三种工具才能解答。
简单说无论是需要「查遍全网」的知识密集型任务还是需要「火眼金睛」的细粒度视觉分析它都是当前的「全能冠军」。
用组合拳解决真实场景问题SenseNova-MARS 还能实实在在落地到我们生活和工作的场景解决需要「多步骤推理多工具协作」的问题。
普通 AI 的工具调用要么只能搜文字要么只能看图片遇到需要「先放大细节、再识别物体、最后查背景」的复杂任务就束手无策。
面对识别赛车服微小 Logo 查询公司成立年份 匹配车手出生年月 计算差值』的复杂任务SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具无需人工干预完成闭环解答。
SenseNova-MARS 能从产品和行业峰会的照片中识别企业的标志快速搜集产品、企业的信息以及时间、数量、参数等细节要素辅助分析行业情况和格局。
SenseNova-MARS 能从赛事照片中识别画面中的 Logo、人物等信息追溯比赛或人员背景信息帮助快速补充重要细节。
SenseNova-MARS 甚至能够轻松处理这类超长步骤的多模态推理和超过三种工具调用自动裁剪分析细节、搜索相关研究数据快速验证假设得出关键判断。
拥有这种「自主思考多工具协作」的能力SenseNova-MARS 能够自动解决「细节识别 信息检索 逻辑推理」复杂任务帮助实现工作效率提升。
• 图像裁剪能精准聚焦图片上的微小细节哪怕是占比不到 5% 的细节——比如赛车手衣服上的微小 Logo、赛事照片里观众席的标语都可通过裁剪放大清晰分析。
• 图像搜索能在看到物体、人物或场景的瞬间自动匹配相关信息——比如识别出赛车手的身份或是某款冷门设备的型号。
• 文本搜索能快速抓取精准信息——无论是公司成立年份、人物出生年月还是最新的行业数据都能秒级获取。
从练中学 形成直觉和经验SenseNova-MARS 采用了「因材施教」的训练方法。
• 第一阶段打基础。
针对跨模态多跳搜索推理训练数据稀缺的痛点创新性的提出了基于多模智能体的自动化数据合成引擎采用细粒度视觉锚点 多跳深度关联检索的机制动态挖掘并关联跨网页实体的逻辑自动化构建高复杂度的多跳推理链路同时引入闭环自洽性校验来去除幻觉数据构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。
用精心筛选的「高难度案例」做教材每个案例都标注了「该用什么工具、步骤是什么」让 AI 先学会基本的「破案逻辑」。
这些案例都是从海量数据中挑出的「硬骨头」确保 AI 一开始就接触真实复杂场景。
• 第二阶段练实战。
采用「强化学习」——就像侦探在一次次破案中积累经验AI 每做对一次决策比如选对工具、步骤合理就会获得奖励做错了就调整策略。
为了避免 AI「学偏」研究团队还加了个「稳定器」——BN-GSPO 算法让它在处理简单题和复杂题时都能保持稳定进步不会出现「偏科」。
这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练AI 不仅学会了用工具更培养工具使用直觉——知道在什么情况下应该使用哪些工具以及如何将不同工具的结果有机结合起来。
模型、代码、数据全开源商汤日日新 SenseNova-MARS 模型、代码、数据集全开源支持 Hugging Face 直接下载。
来源互联网