核心内容摘要
唤醒深藏的渴望:“久操操”——一场触及灵魂的深度探索
Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样一个词一个词地往后蹦。
虽然 OpenAI o1 和 DeepSeek-R1 通过 Chain of Thought (CoT) 开启了“慢思考”时代但其本质依然是通过生成更多的显性 Token 来换取计算时间。
这就带来了一个巨大的效率悖论为了想得深必须说得多。
这一章我们看四篇极具代表性的论文Huginn, COCONUT, TRM, TiDAR它们不约而同地试图打破这一局限能否在不输出废话的情况下让模型在内部“空转”思考 甚至打破自回归的束缚进行全局规划Hugin内生循环思考提升深度Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach这篇论文的核心在于打破大模型推理时计算量恒定的限制提出了一种在“深度”上进行循环的架构从而实现了在**隐空间Latent Space**进行递归推理。
核心痛点固定计算图与动态难度的矛盾传统的 LLM 一旦训练完成其层数Depth是固定的。
这意味着无论输入是简单的“11”还是复杂的数学证明模型在生成每一个 Token 时消耗的 FLOPs是一样的 。
这显然不符合直觉——难题应该需要更多的“思考时间”。
因此我们有了COT和现在的Reasoning模式。
现状为了处理难题现在的 CoT 策略不得不强迫模型“自言自语”生成大量 Token这导致了显存KV Cache的爆炸式增长和推理速度的线性下降。
目标能否让模型在内部“停下来想一会儿”但不占用输出带宽️解决方案循环深度架构Huginn 提出了一种特殊的架构设计试图在 Transformer 中原生实现“慢思考”。
模型包括三个部分PPrelude: 相当于Encoder层负责将 Input Token 映射为隐状态。
Rrecurrent block: 这是一个多层Transformer Layer所有的思考都发生在这里但是和传统Transformer不同的点在于这个模块可以循环运行任意次。
CCoda相当于输出头对思考完成的隐状态进行token解码生成。
这本质上是“层参数共享”的极致应用。
模型通过动态决定 R 模块循环的次数实现了在参数量不变的情况下动态调整推理时的计算深度。
为了防止深层循环导致的梯度消失或遗忘模型在每一步循环都会注入原始输入的 Embedding起到锚点Anchor的作用。
深度洞察高效推理递归模块不产生线性增长的KV-Cache只是不断更新递归参数难度自适应可以通过控制递归的轮数来对不同难度的问题实现自适应计算不需要对所有难度的问题进行统一的思考或者不思考Test Time Scaling论文发现递归的模式同样存在Test-time scaling更多的递归次数会带来持续的表现提升。
COCONUT抛弃语言用“直觉”思考Meta Training Large Language Models to Reason in a Continuous Latent Space如果说 Huginn 是在架构层面“折叠”了深度那么 COCONUT则是在思维载体上进行了一次革命。
它质疑了大模型推理的一个基本假设为什么思考的过程必须用人类语言Tokens来表达核心痛点语言空间的局限性由OpenAI-O1拉开序幕的Reasoning时代当前的推理过程一般是 Hidden State →\rightarrow→ Logits →\rightarrow→ Sampling (Token) →\rightarrow→ Embedding →\rightarrow→ Next Input。
这就引入了一些局限性信息丢失将高维连续的 Hidden State 坍缩为离散的 Token会丢失大量非结构化的“直觉”信息。
就像你脑海里有大量信息却必须用一句话说出来。
效率低下当CoT 中充斥着 Lets think step by step, Therefore 等无意义的连接词。
线性约束语言是线性的但思维往往是发散的、网状的。
之前很多parrallel思考的方案都是为了打破这个约束。
️解决方案连续思维链COCONUT 提出了一种Latent Mode。
虽然架构仍基于 Transformer但它改变了数据流转方式推理模式Latent Mode (隐模式)Coconut 引入了一种新的推理模式。
模型可以在Language Mode和Latent Mode之间切换。
机制当模型进入Latent Mode后输出bot特殊字符它不再将 Last Hidden State 解码为 Token。
而是直接将这个 Hidden State 作为下一步的 Input Embedding 喂给模型。
这就像是模型在“自言自语”但是用只有它自己听得懂的“脑电波”向量在交流而不是用人类语言。
这种“连续思维”一直持续到模型输出eot特殊字符然后再切回语言模式输出最终答案。
训练策略多阶段课程学习为了让模型学会使用上述的思考向量信息论文使用了渐进式的训练方案如下图Stage 0先用标准的 CoT 数据训练模型让它学会逻辑。
Stage 1 ~ k逐步“擦除”CoT 中的文本。
例如在 Stage 1把 CoT 的第 1 步推理文本去掉替换为 ccc 个 Continuous Thoughts隐向量。
模型必须学会用这 ccc 个向量来承载原本那句话的逻辑信息随着训练进行逐步把更多的文本推理步骤替换为隐向量。
最终形态所有的中间推理文本都被“内化”成了连续的隐向量模型只输出最终答案。
深度洞察核心能力涌现隐式 BFS (Implicit Breadth-First Search)这是最精彩的发现。
相比原有COT是线性的同一时刻只能推理一个思路。
但COconut因为Hidden State是高维连续向量所以它可以处于“叠加态”,可以同时编码多个可能的推理路径。
隐式进行了广度搜索。
推理效率提升虽然和Hugin相比依旧需要使用KV-cache但因为连续向量的数量往往显著小于token数所以推理效率会有提升同时也因为省略了推理token采样的步骤而进一步提升吞吐。
超越人了语言思维密度尤其对于一些复杂多路径规划任务以及部分需要look ahead推理的任务因为隐向量比token包含广度更大的思考信息因此效果有所提升。
看到这里我也有个想法逻辑上hidden thought一定会比token携带更多的信息量但最大的问题就是无法可视化那能否想一会说两句想一会说两句也就是把hidden thought和token reasoning通过interleave串联起来TRM: 像改代码一样迭代推理Less is More: Recursive Reasoning with Tiny NetworksTRM和前面的Hugin是非常相似的几乎都是走的“循环思维载体”的思路。
但是TRM多了双流递归的设计把循环过程中的草稿和打磨这两个不同信息拆分开处理。
和COCONUT也有相似之处只不过COCONUT更像是潜意识在时间轴上自回归推理的延伸而TRM是在质量轴上的不断迭代修正。
核心痛点自回归的“落子无悔”Reasoning最大的问题就是前面COCONUT提到的“落子无悔”问题想要进一步反思或者修正就需要继续显性延伸你的思考链路进行反思。
论文的目标能否构建一个模型它的推理过程不是“生成下一个词”而是不断修正当前的答案这需要模型具备迭代修正的能力。
️ 解决方案TRM (Tiny Recursive Model)TRM 的架构设计非常精简它直接回到了最本质的递归结构如下图双流递归状态TRM 维护两个核心状态并在循环中不断更新它们 Latent (Z)推理状态。
这和Huginn多步递归循环的R Block类似都是思维的载体存储不断更新的思维上下文。
Prediction (Y)当前答案的草稿。
这是 TRM 最独特的地方。
它把“当前的预测结果”Embedding 之后作为下一轮的输入喂给自己。
对比Hugin所有信息都在RTRM把已经形成的预测结果解耦出来了推理循环逻辑 (The Loop) 深度洞察全量生成的思维转换TRM 的生成方式更像 Diffusion Model扩散模型是从模糊到清晰的过程而不是从左到右的过程。
但这同样也约束了当前TRM只能用于固定长度内容的输出。
Deep Supervision训练时TRM 并不只在最后一步计算 Loss而是对每一步生成的草稿都计算 Loss。
这强迫模型在第一步就给出一个“大致正确”的解然后在后续步骤中精细化。
TiDARTiDAR: Think in Diffusion, Talk in Autoregression英伟达的这篇论文则是和TRM思路非常相像都是在生成阶段抛弃自回归“蹦字”的方案采用全局生成并不断打磨的思路。
只不过TIDAR引入了扩散模型并切让模型在同一个 Forward Pass前向传播里既作为“起草者”并行地想又作为“验证者”自回归地确认。
核心痛点既要还要的困境在大模型推理中我们一直面临一个trade-offAR自回归模型由于符合语言的因果律质量最高但推理速度慢Diffusion非自回归模型可以并行生成吞吐量极高但往往质量不佳并且质量会随着生成的token个数而持续下降。
现在已有的一些解决方案例如DeepSeek提出的MTP同时预测多个token也是在尝试解决以上的问题但MTP的本质还是自回归的。
还有Speculative decoding使用一个轻量级的AR模型去生成多个token的草稿再用大模型并行对草稿的每个token进行验证但这样就需要同时部署多个模型进行推理。
️ 解决方案 Think Talk的双流协同TiDAR 的模型结构则是在speculative Decoding的基础上把草稿模型和验证模型合并在了一个模型结构里通过特殊掩码实现同时推理。
Think in Diffusion在推理时TiDAR 并不像 GPT 那样一次只预测一个词。
它使用 Diffusion的方案在当前位置之后的K个槽位上同时生成所有候选Token。
这 KKK 个 Token 是并行生成的。
它利用了扩散模型的全局视野。
Talk in Autoregression生成的这K个候选词并不能直接作为答案因为 Diffusion 的逻辑一致性不如 AR。
TiDAR 在同一个前向传播中利用 AR 的逻辑对这K个候选词进行拒绝采样。
双流的核心实现结构化注意力掩码为了在一次向前推理时同时实现以上两种推理TIDAR设计了一个特殊的二维MASK将序列分成了两个部分Diffusion MASK这个区域的token直接是全连接的为了让模型能够根据上文同时猜出后面K个词AR MASK这个区域是causal MASK它负责根据上下文和前面猜出的草稿进行递归生成。
这样在一次向前推理中Inp亡的KV Cache会参与两次计算Input — Think Mask - Diffusion DraftsInput Diffusion Drafts - AR Mask - Final verified Token多任务联合优化训练为了同时训练Diffusion和ARTIDAR在传统的NSP训练的基础上进行了改良同时训练两个lossDiffusion Loss训练模型在给定上下文和部分噪声的情况下并行重构出后续 KKK 个词的能力。
AR Loss标准的交叉熵损失确保模型的最终输出符合语言概率分布
总结推理的未来是“向内生长”从以上四篇论文我们不妨猜测下后Reasoning时代的技术演进方向从Explicit到Implicit从Linear到Recurrent从AR到Hybrid未来的大模型或许会变得更像人类的大脑 表面上沉默寡言但内心戏极其丰富并且能够反复推敲最终给出一个深思熟虑的答案。
学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。
全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取
640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。
无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取
AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。
这些大型预训练模型如GPT-
BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。
那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取