首页速度优化触动荷尔蒙的商务艺术：不止是放松，更是效率的催化剂

网站优化

纯白交织的禁忌诱惑：当极致纯净遇上心跳的边缘

俄罗斯肥大BBBBBBBBB：现象级爆红背后的秘密，你了解多少？

2026-06-08 18:04:15

阅读时长:8分钟

562次阅读

核心内容摘要

甜心糖vlog：解锁生活的甜蜜密码，让每一天都闪闪发光！

文章SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS代码https://github.com/Ruiyang-061X/SketchThinker-R1单位澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室

问题背景当前大型多模态模型LMMs在视觉识别、逻辑推理等任务中通过冗长的逐步推理如链思推理CoT实现了性能提升但随之而来的是两大核心痛点一是推理效率低下冗长的推理过程导致token消耗剧增、响应时间延长难以适配实时交互场景二是推理有效性受损过度思考可能引入冗余信息或累积微小错误最终影响答案准确性同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤在保证正确性的前提下实现高效决策。

受此启发如何让多模态模型具备类似的简洁推理能力在不牺牲答案准确性的前提下降低推理成本成为当前领域亟待解决的问题。

方法创新SketchThinker-R1提出了一套三阶段强化学习框架核心是为模型注入“草图式推理”能力让推理过程既精简又精准

草图模式冷启动Sketch-Mode Cold Start基于现有多模态推理数据集如LLaVA-CoT-100K、Vision-R1-cold利用强大的LLM如GPT-5将冗长的推理过程T_Long转化为草图式推理T_Sketch。

转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则最终构建含20K样本的SketchColdStart-20K数据集。

通过在该数据集上微调基础多模态模型为后续强化学习奠定初始的草图推理能力。

草图评估奖励模型SketchJudge Reward Model为了精准引导模型的推理风格专门训练了一个奖励模型利用冷启动阶段的“长推理”和“草图推理”双模式数据将长推理标注为0分、草图推理标注为1分微调开源LLM使其具备区分推理风格的能力。

该模型能为推理过程打分对简洁聚焦的草图式推理给予高奖励对冗长冗余的推理予以惩罚为后续强化学习提供可靠的监督信号。

草图推理强化学习Sketch-Thinking Reinforcement Learning基于冷启动后的模型采用GRPOGroup Reward Proximal Optimization算法进行强化学习。

奖励设计融合了三部分答案准确性权重

0.

响应格式规范性权重

0.

草图推理风格得分权重

1通过多领域数据集MMStar、MathVista等训练让模型在保持准确性的同时进一步泛化草图式推理能力。

实验结果研究团队在4个跨领域基准数据集MMMU、MathVision、VisuLogic、PhyX上进行了全面评估结果表现亮眼

核心性能指标推理成本大幅降低相比传统R1风格训练的Vanilla-R1模型SketchThinker-R1的推理token消耗减少超过64%部分场景如VisuLogic甚至减少

7

5%准确性保持或提升在所有基准测试中SketchThinker-R1的答案准确率均不低于基线模型部分数据集如MMMU准确率提升

8-

8个百分点推理效率碾压基线提出的“思维效率EoT”指标准确率/推理token数显示SketchThinker-R1的EoT值是Vanilla-R1的

倍远超Prompt-based、SFT-based等其他高效推理方法。

模型泛化性验证无论是7B还是3B规模的模型SketchThinker-R1均能稳定实现“降本增效”3B模型的推理token消耗减少超50%验证了框架在不同模型尺度下的鲁棒性消融实验表明冷启动阶段与强化学习的结合是关键仅靠冷启动泛化能力有限仅靠强化学习则探索效率低下而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。

优势与局限优势效率与准确性兼得突破“长推理高性能”的固有认知通过草图式推理实现“少token高准确率”响应时间缩短约20%训练成本降低19%可解释性更强草图式推理聚焦关键逻辑步骤以结构化列表呈现无论是人类评估还是LVLM自动评估其推理轨迹的可解释性均优于传统冗长推理通用性广适用于数学计算、物理推理、视觉逻辑等多个领域且能适配不同规模的多模态模型落地场景灵活。

局限草图式推理的质量高度依赖初始转化工具如GPT-5的能力开源LLM生成的转化数据可能导致准确性损失对于极复杂的推理任务模型仍可能需要一定长度的推理链过度追求简洁可能影响复杂场景的性能目前的奖励机制中准确性与草图风格的权重平衡依赖人工调参尚未实现动态自适应调整。

一句话

总结SketchThinker-R1通过“冷启动注入初始能力奖励模型引导风格强化学习泛化”的三阶段框架让大型多模态模型具备人类式的草图推理能力在降低64%以上推理成本的同时保持甚至提升答案准确性为高效多模态推理提供了全新解决方案。

樱花视频人像高清拍摄免费版官方版下载-樱花视频人像高清拍摄免费版官方版下载应用

相关标签

WeKnora可视化分析：知识库内容洞察与报表生成【深度学习实战】铝箔物体检测与识别_PAA_R101_FPN_MS-3x_COCO模型详解 Qwen3-32B模型部署：ONNX运行时优化效率直接起飞 8个AI论文工具测评：本科生毕业论文+科研写作必备神器 Superset跨域嵌入实战：从Docker配置到Nginx调优的完整避坑指南效率提升秘籍：在快马平台一键生成最优vscode开发环境配置 Springboot计算机毕业设计计算机课程在线学习网站h2i5t（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。终极wxParse模板层级设计：3步构建可扩展的微信小程序富文本视图结构性能测试能不能做好，要看你有没有性能测试思维 GPEN开源镜像实战：中小企业数字人文项目中的人脸修复落地路径 Z-Image-Turbo能否生成写实风格？风景图实测告别千篇一律：HackBGRT个性化启动画面创意定制指南 BepInEx框架实战指南：从环境适配到问题诊断的全流程配置工业组态网关通过MQTT协议实现数据集成监控

Spring 多实例注入

2026-06-08 18:04:15 6分钟阅读

MTools跨平台开发：Linux环境配置与性能优化

2026-06-08 18:04:15 6分钟阅读

上下文工程的六大核心模块（Agent, RAG, Memory, Tools）深度实战解析

微信小程序Python-uniapp 人工智能AI技术的垃圾分类助手系统

2026-06-08 18:04:15 9分钟阅读

纯白交织的禁忌诱惑：当极致纯净遇上心跳的边缘

核心内容摘要

甜心糖vlog：解锁生活的甜蜜密码，让每一天都闪闪发光！

方法创新SketchThinker-R1提出了一套三阶段强化学习框架核心是为模型注入“草图式推理”能力让推理过程既精简又精准

草图模式冷启动Sketch-Mode Cold Start基于现有多模态推理数据集如LLaVA-CoT-100K、Vision-R1-cold利用强大的LLM如GPT-5将冗长的推理过程T_Long转化为草图式推理T_Sketch。

草图推理强化学习Sketch-Thinking Reinforcement Learning基于冷启动后的模型采用GRPOGroup Reward Proximal Optimization算法进行强化学习。

响应格式规范性权重

草图推理风格得分权重

1通过多领域数据集MMStar、MathVista等训练让模型在保持准确性的同时进一步泛化草图式推理能力。

实验结果研究团队在4个跨领域基准数据集MMMU、MathVision、VisuLogic、PhyX上进行了全面评估结果表现亮眼

核心性能指标推理成本大幅降低相比传统R1风格训练的Vanilla-R1模型SketchThinker-R1的推理token消耗减少超过64%部分场景如VisuLogic甚至减少

5%准确性保持或提升在所有基准测试中SketchThinker-R1的答案准确率均不低于基线模型部分数据集如MMMU准确率提升

8-

8个百分点推理效率碾压基线提出的“思维效率EoT”指标准确率/推理token数显示SketchThinker-R1的EoT值是Vanilla-R1的

倍远超Prompt-based、SFT-based等其他高效推理方法。

一句话

樱花视频人像高清拍摄免费版官方版下载-樱花视频人像高清拍摄免费版官方版下载应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

纯白交织的禁忌诱惑：当极致纯净遇上心跳的边缘

核心内容摘要

甜心糖vlog：解锁生活的甜蜜密码，让每一天都闪闪发光！

方法创新SketchThinker-R1提出了一套三阶段强化学习框架核心是为模型注入“草图式推理”能力让推理过程既精简又精准

草图模式冷启动Sketch-Mode Cold Start基于现有多模态推理数据集如LLaVA-CoT-100K、Vision-R1-cold利用强大的LLM如GPT-5将冗长的推理过程T_Long转化为草图式推理T_Sketch。

草图推理强化学习Sketch-Thinking Reinforcement Learning基于冷启动后的模型采用GRPOGroup Reward Proximal Optimization算法进行强化学习。

响应格式规范性权重

草图推理风格得分权重

1通过多领域数据集MMStar、MathVista等训练让模型在保持准确性的同时进一步泛化草图式推理能力。

实验结果研究团队在4个跨领域基准数据集MMMU、MathVision、VisuLogic、PhyX上进行了全面评估结果表现亮眼

核心性能指标推理成本大幅降低相比传统R1风格训练的Vanilla-R1模型SketchThinker-R1的推理token消耗减少超过64%部分场景如VisuLogic甚至减少

5%准确性保持或提升在所有基准测试中SketchThinker-R1的答案准确率均不低于基线模型部分数据集如MMMU准确率提升

8-

8个百分点推理效率碾压基线提出的“思维效率EoT”指标准确率/推理token数显示SketchThinker-R1的EoT值是Vanilla-R1的

倍远超Prompt-based、SFT-based等其他高效推理方法。

一句话

樱花视频人像高清拍摄免费版官方版下载-樱花视频人像高清拍摄免费版官方版下载应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐