核心内容摘要
稻妻雷影,战之韵律:雷电将军踢技的奥秘解析
模型像人类一样通过一步步写出中间过程来解决复杂问题。
这种方法在数学和编程领域等领域效果显著。
复旦大学、上海AI实验室等机构的联合团队一篇隐式推理Supervised Implicit Chain-of-ThoughtSIM-CoT的论文刚刚被顶会ICLR 2026接收。
通过将思维过程内化为不可见的向量试图在保持推理能力的同时大幅降低计算成本但这种“沉默的思考”往往因为缺乏引导而走向混乱与崩塌。
SIM-CoT技术通过引入训练时的分步监督成功让模型在不增加推理负担的前提下拥有了稳定且可解释的高效逻辑能力。
隐式思维的致命崩塌伽利略曾言我们要测度一切可测之物并把不可测变为可测。
大语言模型因为显式思维链CoT技术的出现推理能力让人惊叹。
模型像人类一样通过一步步写出中间过程来解决复杂问题。
这种方法在数学和编程领域等领域效果显著。
但显式CoT有明显的短板。
它必须使用固定的词汇表将思维外化。
这限制了模型探索更多样化解题路径的可能性。
生成冗长的中间步骤会显著增加推理成本。
模型有时会出现过度思考或啰嗦的现象。
为了解决这些问题隐式思维链Implicit CoT应运而生。
这种方法不再生成离散的文本token。
它将推理过程压缩在连续的潜在空间中。
模型用内部的隐藏状态hidden states来代表思考过程。
每一个潜在状态能编码的信息远超单个文本token。
这使得少量的潜在token就能替代冗长的显式推理链。
Coconut等早期工作已经证明了这种方法的效率优势。
隐式CoT目前仍面临巨大的性能鸿沟。
它比显式方法更快、更省token但准确率较低。
这限制了它的广泛应用。
研究人员试图通过增加潜在token的数量来提升性能。
他们模仿显式CoT增加计算预算的策略。
结果却发现了一个核心隐患潜在不稳定性Latent Instability。
随着推理token数量的增加训练变得极不稳定。
模型甚至会发生完全的崩塌。
我们可以从图中清晰地看到这个现象。
当隐式token的数量从1增加到4时准确率通常会提升。
一旦增加到5个token性能出现断崖式下跌。
准确率直接跌至
1
5%的最低点。
这种对token数量的极度敏感性揭示了隐式推理的脆弱。
为了通过表象看本质研究者深入分析了模型的内部状态。
他们将GSM8K数学数据集上的隐式token投影回词表。
通过检查解码出的top-8 token真相浮出水面。
图(b)展示了信息丢失Information Loss的严重性。
失败的模型在捕捉数字信息上勉强及格。
它在捕捉操作符如加减乘除信息上彻底失败。
没有操作符复杂的数学推理就不复存在。
模型变成了一个只会堆砌数字的机器。
几何层面的分析进一步证实了这一点。
图(c)展示了偏移距离Shifted Distance的变化。
在模型崩塌时潜在向量之间的距离急剧缩小。
这意味着所有的潜在状态变得几乎一模一样。
这种同质化让模型失去了区分不同推理步骤的能力。
潜在向量与词表嵌入中心的距离在不断增加。
这些向量正在漂移脱离了模型原本的语义空间。
它们不再接地气不再与任何有意义的词汇相关联。
图(d)给出了语义同质化Semantic Homogenization的直观例子。
正常模型上图的潜在空间丰富多样包含数字和符号。
失败模型下图的潜在空间是一潭死水。
所有的状态都解码出相似的数字。
缺乏明确的指导自由度极高的潜在空间走向了无序。
模型在黑暗中迷失了方向无法建立有效的推理逻辑。
这就是当前隐式CoT面临的最大困境。
它试图让模型默想但模型却在沉默中睡着了。
单纯的端到端训练不足以维持复杂的内部推理结构。
我们需要一种机制来规范这种内在的思考过程。
这种机制必须足够强力能防止空间坍缩。
它又必须足够轻量不能拖累推理速度。
这正是SIM-CoT诞生的背景。
给思维装上导航仪为了解决上述问题研究团队提出了SIM-CoT。
全称为Supervised Implicit Chain-of-Thought受监督隐式思维链。
这是一个即插即用的训练模块。
它的核心理念是引入步骤级隐式监督Step-level Implicit Supervision。
现有的方法如Coconut只监督最终答案。
CODI等方法虽然引入了轨迹蒸馏但依然粒度较粗。
这些方法没有告诉模型哪一个潜在向量对应哪一步推理。
SIM-CoT通过一个辅助解码器Decoder来打破这种模糊。
在训练阶段这个辅助解码器与主模型协同工作。
它的任务是将每一个隐式潜在向量对齐到具体的显式推理步骤。
这就好比老师要求学生在练习时必须写出解题步骤。
尽管在最终推理时允许学生心算。
这种强制性的对齐确保了潜在状态必须包含有意义的内容。
我们可以从图中看到这一架构的精妙之处。
Coconut直接跳过中间过程监督答案。
CODI尝试模仿整个轨迹的分布。
SIM-CoT则在每一个隐式步骤上都施加了约束。
具体来说在隐式推理阶段LLM运行K个推理步骤。
每一步k模型取最后一个隐藏状态作为隐式潜在向量追加到序列中作为下一个步骤的输入。
训练时辅助解码器接收隐式潜在向量作为条件信号。
它自回归地生成对应的文本推理步骤。
与此同时主模型继续完成它的任务。
在K个隐式步骤后它切换回显式解码模式。
利用之前的潜在序列生成最终答案。
这种设计最大的亮点在于它的“用完即弃”特性。
辅助解码器仅在训练期间存在。
在推理阶段解码器被完全移除。
模型只需要生成潜在向量然后直接输出答案。
这使得SIM-CoT几乎没有任何额外的推理计算开销。
它完美保留了隐式CoT的高效性。
同时它又拥有了显式CoT的逻辑严密性。
除了提升性能辅助解码器还带来了一个意外之喜。
它赋予了隐式推理可解释性。
在以往隐式向量是黑盒没人知道模型在想什么。
现在我们可以利用训练好的解码器作为翻译机。
将推理阶段产生的潜在向量投射回词汇表。
我们可以逐步可视化模型的思考过程。
这对于错误诊断和模型验证具有巨大价值。
从方法论角度看SIM-CoT平衡了多样性与稳定性。
它允许潜在空间保持连续表征的丰富性又通过监督信号防止了表征的同质化坍缩。
潜在向量之间的距离被拉开了。
向量与词表空间的联系被重新建立。
操作符和逻辑关系被重新编码进潜在状态。
模型不再是在黑暗中摸索。
它在导航仪的指引下精准地穿越思维的迷宫。
这种方法还可以轻松集成到现有的隐式CoT框架中。
无论是基于Coconut还是CODISIM-CoT都能作为增强模块。
它不挑剔骨干模型展现了极强的通用性。
沉默推理的全新境界实验数据有力地证明了SIM-CoT的有效性。
研究团队在GSM8K-Aug数据集上进行了广泛的测试。
SIM-CoT展现出了超越现有最强基线的实力。
在以Coconut为基础时SIM-CoT带来了惊人的
2%的提升。
这是一个相对涨幅高达
2
4%的飞跃。
更令人振奋的是它超越了显式CoTSFT-CoT的表现。
在效率上它实现了
3倍的token节省。
这是隐式推理首次在小模型上如此彻底地战胜显式推理。
它证明了沉默思考不仅更快而且可以更准。
在以SOTA方法CODI为基础时SIM-CoT依然能带来提升。
这说明它能挖掘出连蒸馏方法都忽略的细微逻辑信号。
不仅仅是GPT-2这种优势延续到了更大的LLaMA系列模型上。
在1B参数规模下SIM-CoT将Coconut的性能提升了
0%。
它帮助CODI在域内测试集上达到了
5
1%的准确率。
这已经非常接近显式CoT的
5
4%。
考虑到隐式方法带来的推理速度优势这个差距完全可以接受。
以往的研究表明在更大的模型中课程学习容易导致灾难性遗忘。
SIM-CoT通过强有力的步骤级监督缓解了这一问题。
它不仅在熟悉的题目上表现出色在陌生领域也游刃有余。
为了验证泛化能力研究者测试了三个域外OOD基准。
包括SVAMP、GSM-Hard和MultiArith。
这些数据集包含更复杂的算术问题或数字变化。
SIM-CoT在这些任务上一致性地优于SFT-CoT。
以Coconut为骨干时平均提升达
3个点。
这说明模型没有死记硬背训练数据。
它真正学会了通用的数学推理逻辑。
相比之下SFT-CoT往往过度拟合于特定的文本格式。
隐式推理由于其连续表征的特性反而展现出更好的鲁棒性。
研究者还进行了一项关于潜在token数量的消融研究。
Coconut在token数量增加到一定程度后迅速崩溃。
SIM-CoT则展现出极强的稳定性。
随着潜在token数量增加到8个性能稳步上升。
我们终于可以利用更多的计算预算来换取更好的推理。
这一发现打破了隐式CoT无法扩展深度的魔咒。
它为未来构建更深、更复杂的隐式思维模型铺平了道路。
关于可解释性的实验更是让人眼前一亮。
问题涉及西瓜的收成计算。
模型直接输出了答案“21”。
通过辅助解码器我们看到了模型内部的思维过程。
模型确实在进行严密的逻辑推导。
这种透明度对于建立用户对AI的信任至关重要。
我们可以查阅它的“草稿纸”确认它的思路是否正确。
SIM-CoT在更大的模型上也展现了良好的扩展性。
在LLaMA-
2 3B和LLaMA-
1 8B上结论依然成立。
它在保持推理效率的同时不断缩小与显式CoT的差距。
在域外任务上它甚至经常超越显式CoT。
这再次印证了步骤级监督在构建鲁棒特征上的优势。
研究还探讨了不同解码器尺寸的影响。
有趣的是并不是解码器越大越好。
1B参数的解码器足以提供良好的监督信号。
过大的解码器如8B反而可能导致性能轻微下降。
这可能是因为过强的解码器导致了优化目标的冲突。
或者是因为它在训练中占据了过多的计算资源分配。
这提示我们监督信号的强度需要适中。
只要能从向量中恢复出语义信息就达到了目的。
SIM-CoT还展示了与软思维Soft Thinking技术的兼容性。
这种灵活性使其成为未来隐式推理研究的一个通用基座。
SIM-CoT通过强制潜在向量“言之有物”它稳定了训练。
通过保留连续空间的自由度它提升了泛化。
通过可插拔的解码器它兼顾了效率与可解释性。
它让大模型在沉默中学会了真正的思考。
随着SIM-CoT的提出隐式CoT技术迈出了走向实用化的关键一步。