核心内容摘要
从 Qwen3-0.6B 到 Qwen3.5-0.8B:轻量级大模型的架构革命与多模态进化
AI Agent经历了从ReAct到OODA再到Manus的进化实现了从被动响应到主动决策的转变。
ReAct建立思考-行动-观察闭环OODA增加定向环节强化决策Manus通过三代理架构和压实技术实现专业化分工。
未来将向认知循环体发展突破意义建构能力需架构上的数字宪法确保与人类目标一致。
今天想跟大家好好聊聊这个进化过程从最早的ReAct框架到军事战略启发的OODA循环再到现在如日中天的Manus看看AI Agent是怎么一步步学会思考的。
自主智能体的起源ReAct框架的诞生2022年普林斯顿大学和谷歌的研究团队提出了ReAct框架这可以说是AI Agent的第一个里程碑。
ReAct全称是Reasoning and Acting核心 idea 特别简单让AI像人一样边想边做。
传统的AI要么只会空想Reasoning-Only要么只会蛮干Action-Only。
ReAct第一次把这两者结合起来形成了思考-行动-观察Thought-Action-Observation的闭环。
举个例子如果你让AI查天气并推荐衣服传统模型可能直接说今天22度穿短袖。
但ReAct会这么思考Thought我需要先查用户所在城市的天气Action调用天气API(“深圳”)Observation返回深圳22°C晴Thought现在可以推荐穿短袖了这种方式有个巨大好处减少幻觉。
比如你问爱因斯坦最近发了什么推特ReAct会先思考爱因斯坦已经去世了无法发推特而不是像传统模型那样可能编造一条出来。
ReAct的架构其实挺简单主要分三层感知层处理文本、图像等输入认知层LLM负责推理还有记忆系统和规划模块执行层调用工具、API等我去年试过用AgentScope搭过一个ReAct智能体核心代码就三部分注册工具、初始化Agent、启动循环。
印象最深的是它能自己调用Python解释器解决数学问题比直接让LLM算可靠多了。
不过ReAct也有局限它更像走一步看一步缺乏全局规划。
这就好比你让它规划一次旅行它可能先订了机票才发现没办签证——这时候就需要更高级的决策框架了。
OODA Loop从空战战术到AI决策说到决策框架就不得不提OODA Loop。
这个概念是美国空军上校约翰·博伊德在50年代提出的原本是用来分析空战战术的——谁能更快完成观察-定向-决策-行动循环谁就能占据优势。
把OODA用到AI上就形成了更强大的决策循环Observe观察收集环境数据比如代码运行报错、搜索结果Orient定向理解情境分析哪些信息重要Decide决策选择行动方案Act行动执行并产生新的观察OODA比ReAct强在哪它强调定向Orient的重要性——不只是被动接收信息还要主动解读信息的意义。
比如股票分析Agent看到股价下跌不会立刻决策卖出而是先分析下跌原因、市场情绪、公司基本面等多个维度。
但OODA也有个问题它假设输入信息是可信的。
在AI时代这个假设可不成立——Agent从网上爬的数据可能被篡改调用的API可能返回错误结果。
这就像战斗机飞行员突然发现雷达信号是假的整个决策链都会出问题。
所以现在的AI Agent都在OODA基础上增加了反思Reflection环节。
比如执行失败后会分析是工具调用错了还是观察理解错了或者目标本身有问题。
这种自我修正能力让Agent在复杂环境中更可靠。
Manus通用智能体的技术突破如果说ReAct和OODA是Agent的操作系统那Manus就是第一个真正的通用应用。
去年Meta宣布要花
亿美元收购Manus母公司时整个行业都炸了——一个不做大模型的公司凭什么值这么多钱我研究了一下Manus的技术细节发现它的核心创新其实是工程层面的。
它没有去做更大的模型而是把现有技术组合得特别巧妙。
最关键的是它的三代理架构规划代理Planning Agent拆解任务生成todo.md执行代理Execution Agent调用工具运行代码验证代理Verification Agent检查结果对抗性测试这种分工特别像软件开发团队产品经理规划、程序员执行、测试工程师验证。
Manus在GAIA基准测试中准确率比OpenAI同类产品高12%这个数据还挺猛的。
可能就是因为这种专业化分工。
另一个黑科技是它的压实Compression技术。
Agent处理任务时上下文会越来越长Manus会把不重要的信息存到文件系统只在上下文里留个纸条需要时再取出来。
这招让它的上下文长度缩短了80%成本降低到同类服务的1/10。
这个数字让我有点意外。
我还发现个特别有意思的细节Manus处理任务时不是直接调用工具而是先把行动翻译成Python代码。
比如要查天气它会生成一段调用天气API的Python脚本在沙盒里运行。
这种一切皆代码的思路让错误处理和重试变得特别灵活。
不过Manus也不是完美的。
我试用时发现处理超过200步的超长任务时中断率约
7%。
而且它目前还不能调用本地软件比如你让它处理本地Excel文件它会先让你上传到云端。
未来认知循环体的诞生从ReAct到ManusAI Agent的进化其实是在逼近一个目标认知循环体Cognitive Loop Entity。
这是一种能持续感知-建模-行动-评估-修正的系统不仅能执行任务还能质疑目标本身。
现在的Agent已经有了一些苗头。
比如DeepSeek最新论文里提到的mHC技术通过双随机矩阵约束信号传递解决了深度网络训练不稳定的问题。
这种数学上的严谨性让Agent的决策更可靠。
但真正的认知循环体还需要突破意义建构能力。
人类看到一杯水会联想到生命、爱情或污染而AI只能识别水H₂O。
未来的Agent如果能理解事物的象征意义可能会产生真正的创造力。
最近看到个观点挺有意思未来的AI开发可能不再是写代码而是设计认知循环。
就像现在的程序员不用关心晶体管怎么工作未来的AI工程师可能也不用关心模型参数而是专注于设计Agent的观察维度、反思机制和价值函数。
最后回顾AI Agent的进化之路从ReAct的边想边做到OODA的快速迭代再到Manus的专业分工技术突破往往不是颠覆式的革命而是把一个个小创新组合起来的结果。
作为开发者我觉得现在是个特别激动人心的时代。
以前我们写代码是给计算机下指令现在我们是在设计数字同事——它们能理解目标、规划路径、执行任务甚至从错误中学习。
但同时也有个隐忧当Agent越来越自主我们怎么确保它们的目标和人类一致DeepSeek在论文里提到的双随机矩阵给了我启发——也许不是靠模型本身而是靠架构上的约束。
就像人类社会靠法律和道德约束行为未来的Agent可能也需要类似的数字宪法。
参考资料ReAct框架原理论文https://arxiv.org/abs/
2
03629Manus官方技术文档https://manusaiagent.im/zhDeepSeek mHC论文https://arxiv.org/abs/
2
24880最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到
3
4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升
6
6%。
AI产业的快速扩张也让人才供需矛盾愈发突出。
麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。
那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。
我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。
如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。
我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】