核心内容摘要
天堂亚洲
今天推荐一个 Implicit Chain-of-Thought隐式推理 的最新进展 —— SIM-CoTSupervised Implicit Chain-of-Thought。
魏熙林为本篇文章第一作者。
魏熙林是复旦大学博士生师从林达华教授研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。
目前在上海人工智能实验室实习指导 mentor 是臧宇航、王佳琦。
今天推荐一个 Implicit Chain-of-Thought隐式推理 的最新进展 —— SIM-CoTSupervised Implicit Chain-of-Thought。
它直击隐式 CoT 一直「扶不起来」的核心痛点隐式 token 一旦 scale 上去训练就容易塌缩到同质化的 latent 状态推理语义直接丢失。
SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上既稳住优化、避免 collapse又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。
更爽的是推理阶段零额外开销辅助解码器训练完就丢但效果却很猛在 GPT-2 上相对 supervised CoT
1%、相对 Coconut
2%、相对 CODI
3%在更大的 LLaMA1B/3B/8B上也能稳定带来
5%
0% 的提升并且在 8–16 个隐式 token 这种 “前人容易崩” 的设置下依然稳得住。
目前这项研究刚刚中稿顶会 ICLR 2026论文、代码、模型权重均已开源欢迎使用Paper: https://arxiv.org/pdf/
2
20317Code: https://github.com/InternLM/SIM-CoTHuggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought图 1(a) 潜变量不稳定隐式 token 增多起初能提精度但训练会变得不稳定甚至塌缩。
(b) 信息丢失失败模型5 个隐式 token在隐式表示中丢失关键运算符信息如 、−导致复杂推理无法进行。
(c) 距离偏移失败模型的 latent 间距离收缩、彼此过于相似同时 latent 逐渐偏离词表嵌入空间中心。
(d) 语义同质化失败模型的 latent 表征趋同解码结果分布变窄输出多为数字正常模型则能生成更丰富的内容。
从显式 CoT 到隐式 CoTlatent 稳定性与监督对齐的重大难点复杂推理任务如数学、符号推理、代码推理长期以来都依赖显式 Chain-of-ThoughtCoT模型把中间步骤一条条写出来既能提升正确率也便于人类检查与纠错。
如今随着推理需求不断增长显式 CoT 的两大瓶颈越来越突出成本方面长 CoT 会显著拉高 token 开销与时延效果方面显式步骤容易被数据格式牵着走出现「模板化推理」、冗长但无效的「自说自话」。
这些局限性推动研究者转向一种更「省 token」的新范式 —— 隐式 CoTImplicit CoT。
它不再把推理步骤完整写出来而是用少量隐式 token /latent 表征在模型内部完成多步推理理论上既能保留推理能力又能显著降低推理开销。
但把隐式 CoT 真正做稳、做强远比想象中难关键挑战在于隐式 token 到底学到了什么以及作者团队如何保证它学到的是「可用的推理」而不是「投机的捷径」一个典型现象是 latent instability潜变量不稳定当你尝试增加隐式 token 数量来「scale 推理容量」时模型往往不是变强而是训练开始抖动甚至直接 collapse塌缩。
塌缩后的隐式 token 会出现明显的 信息丢失 —— 尤其是对符号推理至关重要的算子信息、−、×、÷ 等被抹掉同时 latent 之间的表示会越来越像出现语义同质化不同 token 学到的东西高度重合最后解码出来的内容范围变窄常常只剩下数字或非常单一的片段复杂推理自然就做不下去。
现有隐式 CoT 方法在监督粒度上差异很大Coconut 基本只做答案级监督模型被要求「最后答对」但中间 latent 学什么几乎不受约束CODI 虽然引入了蒸馏信号把显式 CoT 的信息压到连续 latent 里但更多是轨迹 / 整体路径级对齐。
SIM-CoT 的关键突破正是 step-level 监督训练时用辅助解码器把每个 latent 对齐到对应推理步骤从根上稳定并丰富 latent 推理空间同时推理阶段不增加任何开销。
图 2: 框架对比Coconut左上、CODI右上与 SIM-CoT下。
Coconut/CODI 仅在答案或轨迹层面进行粗粒度监督SIM-CoT 引入解码器将隐式 latent 与逐步推理对齐在不增加推理开销的前提下提升性能。
监督设计新思路好的隐式推理应当能被「逐步解码 」回显式思维链为了解决隐式 CoT 在 scale implicit tokens 时容易出现的不稳定与塌缩latent 语义变得同质、算子信息丢失、复杂推理失效这一关键难题作者团队提出一个新的视角隐式推理的质量与其「可对齐的逐步语义」成正比。
换句话说如果每个隐式 latent 真的在做第 k 步推理那么它就应该能被一个轻量的解码器「翻译」回对应的显式步骤比如产生关键算子、关系、子目标从而让 latent 不再是黑盒的连续向量而是具备可控的推理结构。
基于这一动机作者团队提出 SIM-CoT 的训练框架在训练阶段引入一个辅助 decoder把每个隐式 latent 与对应的 step-level 推理进行对齐监督而不是像 Coconut 只监督答案、或像 CODI 更偏轨迹级 / 整体级的粗粒度对齐。
这样一来模型在学习「如何答对」的同时也被强约束去学习「每一步该想什么」从根源上抑制语义坍缩更重要的是推理阶段直接移除 decoder保持零额外开销但作者团队依然可以在分析时把隐式步骤解码出来做中间推理可视化同时获得更强的性能与更稳定的 token scaling 效果。
SIM-CoT 实验结果作者团队对 SIM-CoT 带来的收益做了系统评估结论非常明确更准、更稳、还更省 token。
1GPT-2 上首次做到「隐式 CoT 反超显式 CoT」且 token 更省。
在 in-domain 的 GSM8k-Aug 上SIM-CoT以 Coconut 为骨干把准确率从
3
6% 提升到
4
8%
2同时也超过显式 SFT-CoT 的
4
7%并且保持隐式推理的低 token 开销平均 token 远低于 SFT-CoT论文
总结为
3× token efficiency。
2Out-of-domain 泛化更稳整体平均提升显著。
在 GSM-Hard / MultiArith / SVAMP 三个外推数据集上SIM-CoTCoconut 骨干的 out-of-domain 平均准确率从
4
6% 提升到
4
9%
3说明它并不是「只会背训练域步骤」而是确实把 latent 空间推理做扎实了。
3在更强的隐式基线与更大模型上依然有增益并显著提升稳定性。
在 GPT-2 上叠加到 CODI 之上也能继续涨in-domain
6out-of-domain 平均
3扩展到 LLaMA
2 3B 时依然稳定带来
5in-domain/
7out-of-domain 平均 的提升论文也报告在 LLaMA-
1 8B 上对 CODI 提升
0。
4效率不打折推理阶段无额外开销还更快。
因为辅助 decoder 只在训练期使用推理期移除所以 SIM-CoT 推理效率与其他隐式方法一致同时在 GPT-2 上相对显式 CoT 仍体现出明显速度优势。
图三作者团队在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系统验证了 SIM-CoT 的性能提升结果表明该方法在不同模型规模下均稳定有效。