纯白交织的禁忌诱惑:当极致纯净遇上心跳的边缘

核心内容摘要

怦然心动,她眼中的星辰大海
尘封的羁绊:当黑土遇上鸣人的“大钢筋”

甜心糖vlog:解锁生活的甜蜜密码,让每一天都闪闪发光!

文章SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS代码https://github.com/Ruiyang-061X/SketchThinker-R1单位澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室

问题背景当前大型多模态模型LMMs在视觉识别、逻辑推理等任务中通过冗长的逐步推理如链思推理CoT实现了性能提升但随之而来的是两大核心痛点一是推理效率低下冗长的推理过程导致token消耗剧增、响应时间延长难以适配实时交互场景二是推理有效性受损过度思考可能引入冗余信息或累积微小错误最终影响答案准确性同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤在保证正确性的前提下实现高效决策。

受此启发如何让多模态模型具备类似的简洁推理能力在不牺牲答案准确性的前提下降低推理成本成为当前领域亟待解决的问题。

方法创新SketchThinker-R1提出了一套三阶段强化学习框架核心是为模型注入“草图式推理”能力让推理过程既精简又精准

草图模式冷启动Sketch-Mode Cold Start基于现有多模态推理数据集如LLaVA-CoT-100K、Vision-R1-cold利用强大的LLM如GPT-5将冗长的推理过程T_Long转化为草图式推理T_Sketch。

转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则最终构建含20K样本的SketchColdStart-20K数据集。

通过在该数据集上微调基础多模态模型为后续强化学习奠定初始的草图推理能力。

草图评估奖励模型SketchJudge Reward Model为了精准引导模型的推理风格专门训练了一个奖励模型利用冷启动阶段的“长推理”和“草图推理”双模式数据将长推理标注为0分、草图推理标注为1分微调开源LLM使其具备区分推理风格的能力。

该模型能为推理过程打分对简洁聚焦的草图式推理给予高奖励对冗长冗余的推理予以惩罚为后续强化学习提供可靠的监督信号。

草图推理强化学习Sketch-Thinking Reinforcement Learning基于冷启动后的模型采用GRPOGroup Reward Proximal Optimization算法进行强化学习。

奖励设计融合了三部分答案准确性权重

0.

响应格式规范性权重

0.

草图推理风格得分权重

1通过多领域数据集MMStar、MathVista等训练让模型在保持准确性的同时进一步泛化草图式推理能力。

实验结果研究团队在4个跨领域基准数据集MMMU、MathVision、VisuLogic、PhyX上进行了全面评估结果表现亮眼

核心性能指标推理成本大幅降低相比传统R1风格训练的Vanilla-R1模型SketchThinker-R1的推理token消耗减少超过64%部分场景如VisuLogic甚至减少

7

5%准确性保持或提升在所有基准测试中SketchThinker-R1的答案准确率均不低于基线模型部分数据集如MMMU准确率提升

8-

8个百分点推理效率碾压基线提出的“思维效率EoT”指标准确率/推理token数显示SketchThinker-R1的EoT值是Vanilla-R1的

倍远超Prompt-based、SFT-based等其他高效推理方法。

模型泛化性验证无论是7B还是3B规模的模型SketchThinker-R1均能稳定实现“降本增效”3B模型的推理token消耗减少超50%验证了框架在不同模型尺度下的鲁棒性消融实验表明冷启动阶段与强化学习的结合是关键仅靠冷启动泛化能力有限仅靠强化学习则探索效率低下而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。

优势与局限优势效率与准确性兼得突破“长推理高性能”的固有认知通过草图式推理实现“少token高准确率”响应时间缩短约20%训练成本降低19%可解释性更强草图式推理聚焦关键逻辑步骤以结构化列表呈现无论是人类评估还是LVLM自动评估其推理轨迹的可解释性均优于传统冗长推理通用性广适用于数学计算、物理推理、视觉逻辑等多个领域且能适配不同规模的多模态模型落地场景灵活。

局限草图式推理的质量高度依赖初始转化工具如GPT-5的能力开源LLM生成的转化数据可能导致准确性损失对于极复杂的推理任务模型仍可能需要一定长度的推理链过度追求简洁可能影响复杂场景的性能目前的奖励机制中准确性与草图风格的权重平衡依赖人工调参尚未实现动态自适应调整。

一句话

总结SketchThinker-R1通过“冷启动注入初始能力奖励模型引导风格强化学习泛化”的三阶段框架让大型多模态模型具备人类式的草图推理能力在降低64%以上推理成本的同时保持甚至提升答案准确性为高效多模态推理提供了全新解决方案。

樱花视频人像高清拍摄免费版官方版下载-樱花视频人像高清拍摄免费版官方版下载应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123