核心内容摘要
革新性智能家居操作系统:Home Assistant Operating System全方位技术解析
近日谷歌 DeepMind、Meta、亚马逊和耶鲁大学联合发表了论文 《Agentic Reasoning for Large Language Models》 它解释了为什么大多数 AI agents 在演示中显得很聪明但是在实际工作中却显得愚蠢。
这篇论文之所以有意思是因为它不再讨论“Prompt Engineering”而是正式提出了Agentic Reasoning 新范式。
对于目前 AI Agent 的问题论文认为核心原因是在途它们本质上是被动反应reactive generators下连续预测下一个 token而不是主动规划、执行、评估和调整策略的代理agentic reasoner。
也就是当前的 LLM 并不是在思考而是在“反应”例如当你给 GPT-4 一个复杂任务时它是在基于概率预测下一个 token它像一个试图一口气说完长句子的演讲人员中间没有停顿没有回溯一旦开头错了后面只能硬着头皮编下去Error Cascading。
而要真正让 LLM 有像人类一样“思考”的能力就必须把推理建模为一个循环的、可控制的过程而不是单一的 chain-of-thought prompt论文提出一个统一框架来捕捉这种代理式智能的发展路线图。
真正的智能体推理必须是一个闭环系统它不应该是一次性的生成而是一个动态的、可管理的过程。
为什么需要 Agentic Reasoning因为目前传统 LLM 虽然能输出连贯的文字但是没有内在计划监控机制没有显式目标分解、工具调度、反馈循环命令式长链推理CoT只是扩大 token 输出但不会改善“决策质量”“CoT plateau”思维链停滞是论文的一个重要发现 传统的思维链Let’s think step by step本质上还是一次性生成模型把“思考过程”和“最终答案”混在一起输出如果任务太长模型就会“迷失”在自己的生成的文本中注意力分散导致逻辑崩塌。
所以论文认为当前 LLM 并非真正推理reason而是在 token 级别做统计预测react这也是为什么 demo 看起来很聪明但在复杂任务或现实任务中表现一般在这个基础上要改进性能不是用更大模型更多训练数据而是需要改变控制和推理体系架构。
所以论文认为需要将“控制流”与“推理流”分离。
Agentic Reasoning 的定义论文里定义了 Agentic Reasoning 是一种循环式智能行为过程Agentic Reasoning Observation观察→ Planning规划→ Action行动→ Evaluation评估/反思→ Update更新状态→ Repeat循环与经典 prompt 不同在于它内部维护一个任务状态可以显式目标分解与工具选择实现决策而不是文本预测有反馈、回顾、修正机制基于这种设计在这种架构下模型能够制定长期计划并且调用外部工具/环境交互最重要是可以对执行结果做自我评价和修正错误路径总而言之就是它可以把 LLM 从“快速打字机器人”提升为“动机驱动的决策者”。
架构层级结构论文里一共提出了一个三层结构来组织 agentic reasoning 的研究和实践Foundational Agentic Reasoning基础层它的核心目标就是确保单一代理具备一下能力规划与目标分解工具调用搜索、代码执行、API 等环境交互执行可验证行为这一层专注于单一 agent 在稳定环境中的能力边界例如更好的计划生成、明确的行动语义关键在于规划 不是简单的列提纲而是分层规划模型需要能设定高层目标并将其拆解为可执行的子目标Subgoals如果某条路径行不通要有能力放弃并切换路径这一点目前的 LLM 很难做到它们通常是一条道走到黑工具使用 现在的 Agent 是“拿着工具的打字员”真正的 Agentic Reasoning 要求模型明白何时以及为何使用工具并能根据工具的反馈修正自己的计划推理搜索 引入像**树搜索 (Tree Search)**或蒙特卡洛树搜索 (MCTS)这样的机制不仅生成一个答案而是生成多个可能的推理路径并在中间步骤进行自我评估Self-Evaluation选出最好的一条Self-Evolving Agentic Reasoning自我进化层这一层的核心目标是让 agent 学会反馈驱动调整策略反思批判性评估行为结果记忆与状态持续更新在线学习与策略调整自我纠错这一层也是这是 agentic 推理区别于传统 chain-of-thought 的关键设计这是论文最精彩的部分真正的智能体必须能在运行时Runtime变强而不需要重新训练权重反思与修正在执行完一步后模型必须停下来“看一眼”我做对了吗结果符合预期吗记忆 传统的 Context Window上下文窗口不仅贵而且容易遗忘Agentic 系统需要结构化记忆记录过去的成功路径和失败教训这意味着模型在同一个任务中尝试第二次时应该比第一次聪明。
Collective Multi-Agent Reasoning协作层核心目标是在多个 agent 之间的协同、共享知识、协同计划与分工和多目标优化这一层主要是针对大型 agent 网络在复杂协作任务中的智能表现例如团队决策、多人对话、分布式工作等。
路径
为什么说“架构 规模”论文对目前行业的看法是单纯堆算力和参数量Scaling Laws已经无法解决 Agent 的可靠性问题混合的代价当同一个 Prompt 既要负责规划又要负责执行还要负责自我批评时错误会静默地累积分离的好处即使使用现有的模型不需要训练新的 GPT-5只要通过 Agentic 架构将规划、执行和评估拆开性能就能获得巨大的提所以从路径上论文认为未来不需要更“大”的模型来做 Agent需要更“好”的认知架构Cognitive Architecture如果用形象的话来比喻目前的 LLM 是 直觉、快速、下意识的反应Agentic Reasoning 是 慢思考、逻辑、规划、反思而为了让 agentic 推理变为现实论文区分了两类方法In-Context Reasoning上下文推理在 Test-Time 推理时使用结构化 orchestration 为的是不改变模型权重通过 prompt state 管理 external tool 调度改善性能方法包括 ReAct、Plan-Act-Reflect 等动态循环方法。
Post-Training Optimization训练后优化用 RL、监督微调等方式改进 agentic 行为 目标是让策略、计划、工具调用学习成为模型能力的一部分这类方法侧重模型权重层面优化。
最后实际上虽然论文构想很美好但是具体落地还是有一段距离例如如何让代理在重大长期任务中稳定执行计划比如跨数百步的科学探索需要让 agent 构建并维护一个持久、可查询的环境模型不同 agent 之间如何有效协作并共享经验真正部署的 agent 需要有对齐、安全、审计机制。
总的来说Agentic Reasoning 是新范式而不是单项技术它将推理表现为循环式控制过程而非文本生成例如它需要显式规划、执行、反思、状态维护与反馈最终目标是打造真正具有决策能力的 AI agent 而非“更快的 typer”挑战包括世界建模、长期规划、治理、安全对齐等从这里看未来完全的 AI Coding 托管真的不远了不解决外部支持而是内在的 Agent 完全自我驱动。
参考链接https://arxiv.org/abs/
2