核心内容摘要
Altium的license季度审计标准化操作流程
本文是一篇关于AI Agent认知架构的综述详细介绍了八大核心模块学习、推理、记忆、世界模型、奖励、情绪、感知和行动系统。
文章通过人类与AI的类比阐述了各模块在人类大脑中的作用及AI实现方式展示了如何构建更强大的自适应AI Agent。
本篇文章
总结自 4 月份 Hugging Face上热度最高的论文《ADVANCES AND CHALLENGES IN FOUNDATION AGENTS》是一篇关于 AI Agent 的全景综述。
文章有近200页分 4 个主要部分。
今天带来
分AI Agent 认知架构核心模块的概述。
AI Agent的认知架构由多个关键模块组成类似于人类大脑处理信息的不同功能区。
本文章将结合人类与AI的类比介绍Agent认知架构中的八大核心组成部分学习、推理、记忆、世界模型、奖励、情绪、感知和行动系统。
作者阐述了每个模块在人类中的作用及其在AI中的实现方式并举例说明典型方法。
学习学习是Agent将经验转化为知识的基本过程也是取得进步的基础。
人类大脑通过多个并行机制来学习例如海马体快速编码日常经历小脑通过反复练习掌握精细运动技能基底神经节利用多巴胺奖赏信号强化有益行为脑皮层则自发提取模式进行无监督学习。
人类的学习具有主动探索、动机驱动和情境化的特点并能在从瞬时反应到终生习得的不同时间尺度上进行调整。
大规模预训练的语言模型Agent在架构上虽不同于人脑但展现出类似的学习过程。
广义上它们通过在海量数据上预训练完成“阅读”无监督地习得广博知识在具体任务上又通过监督微调和强化学习等参数更新精炼特定技能。
此外这些模型还能通过上下文学习来适应新任务利用暂时提供的提示或对话历史在不修改内部参数的情况下表现出新能力这有点类似于人类利用工作记忆学习新信息。
Agent学习的典型方法监督学习通过大量标注范例训练模型让Agent学会从输入预测期望输出例如图像分类或语言翻译。
这类似于人类在老师指导下学习有明确正确答案。
无监督学习让Agent在未标注的数据中自行发现结构和模式例如聚类、降维或通过预测下一个词元来学习语言模型。
这类似于人类通过观察和归纳自发领会规律。
强化学习Agent与环境交互通过试错获取奖励信号来强化成功的行为策略。
类比人类通过奖励和惩罚如奖赏或挫折来学习怎样达成目标。
这些方法各有所长人类学习在小样本、高度情境化方面很高效而基于大模型的Agent擅长从海量数据中提炼知识并整合跨领域信息。
将人类和AI的学习优势相结合是构建更强大适应性Agent的未来方向。
推理**推理是智能行为的核心它将原始信息转化为可操作的知识用于解决问题和决策制定。
**人类擅长多种推理策略例如演绎推理能够把一般规则应用于具体情况归纳推理能从个别实例提炼出普遍结论溯因推理则根据不完全的信息猜测最合理的解释。
同时人类还使用启发式简化复杂问题并通过环境反馈不断修正思考——这保证了推理结论与现实一致并能适应变化。
在AI领域推理使大语言模型从被动的“应答器”转变为主动解决复杂任务的“认知体”。
通过推理Agent可以处理多模态输入如文本、图像整合不同知识来源为实现目标制定连贯的策略。
在这个过程中环境既提供了激发推理的信息来源又充当验证推理结果的试验场Agent根据环境反馈检验自己的推断并从错误中学习从而改进后续推理策略。
AI Agent的推理可分为两类结构化推理将复杂问题分解为一系列有序的步骤按逻辑链条逐步推导。
例如求解数学题时Agent可以像人一样列出公式推算每一步。
这种方式类似于人类严谨的逻辑演绎过程优点是过程透明、可验证。
规划Planning通常被视为结构化推理的一种特殊形式涉及多步推演以达成长远目标。
非结构化推理采用端到端的整体方式给出结论中间推理过程对外不显式展现。
大型神经网络模型往往通过内部隐含状态直接生成答案类似于人类的直觉判断或模式识别过程。
非结构化推理灵活且适应性强尤其在开放式问答或复杂模式匹配上表现出色但其具体推理路径往往难以解释。
Agent通常结合两种推理方式面对复杂问题先使用结构化步骤保证方向正确再利用灵活的神经网络直觉完善细节。
这种结合使Agent既有条理又具创造力能够处理需要多步思考的任务。
记忆记忆是人类和AI Agent都不可或缺的能力它为智能提供了经验积累的基础。
对人类来说记忆如同庞大的知识库支持我们从婴儿时期开始学习语言、掌握技能和适应世界的复杂性。
人脑的记忆体系包括不同类型瞬时的感觉记忆、容量有限的短期记忆工作记忆以及持续存储人生经历和知识的长期记忆。
记忆影响着我们的自我意识、创造力和决策过程——没有记忆我们无法从过去的错误中学习也无法规划未来。
在AI中记忆被视为智能行为的基石之一。
一个AI Agent如果没有记忆只能根据当前输入做出反应无法累积经验来改进行为。
Agent记忆的表示可以有不同形式感知记忆类似于人类的感觉记忆Agent短暂保留刚刚获取的原始感官输入。
例如摄像头捕捉的影像或麦克风录入的声音会暂存在缓存中以备进一步处理。
短期记忆相当于AI的工作记忆用于在当前任务中存储和检索必要的信息。
比如对话式AI会临时“记住”最近几轮对话内容使交互连贯机器人在导航时会保留当前环境的关键细节。
长期记忆用于持久存储知识和经验供日后使用。
这包括预先训练得到的模型参数蕴含了从海量数据中学到的普遍知识以及运行过程中积累的知识库或数据库。
例如一些Agent维护文本日志、知识图谱或向量嵌入库来记忆过去的重要事件和事实。
Agent的记忆一般经历获取、编码、存储、检索和应用几个阶段首先从感知模块获取信息并写入记忆然后通过编码压缩或表示成适合内部处理的形式存储在短期或长期记忆池中需要时通过检索算法找到匹配的记忆项最后将检索到的记忆用于当前决策或行为。
现代AI中有一些神经记忆网络的研究尝试赋予模型更类似人脑的记忆功能——比如可微分神经计算机(DNC)等结构让神经网络有读写外部记忆的能力。
总的来说一个强健的记忆模块让Agent能像人一样“记住”教训、知识和环境变化从而在复杂任务中表现出持续的学习和适应能力。
世界模型人类会在头脑中建构心智模型即对外部世界的内部表征。
这种模型就像大脑中的“沙盘推演”让我们不必实际尝试就能预测结果、规划行动。
比如乒乓球运动员可以在脑海中预判击球后球的大致轨迹我们走迷宫时会形成环境的“认知地图”以便选择正确路径。
这些内在的世界模型帮助人和动物以更高效、更少试错的方式理解和应对新情境。
正如心理学家Kenneth Craik早在1943年提出的观点人脑运行着“现实的简化模型”以模拟事件可能的展开并评估各种行动方案的后果。
对于AI Agent而言也需要一个世界模型来在内部模拟环境动态从而在采取行动前评估可能结果。
这减少了纯粹依赖试错学习的低效。
AI世界模型可以通过不同范式实现**隐式世界模型**Agent并不显式地存储环境的规律而是通过其神经网络内部状态隐含地捕捉世界动态。
例如一些强化学习Agent通过反复训练其深度网络权重中自然包含了对环境如何变化的预期尽管没有单独的模块来表征环境。
**显式世界模型**Agent维护明确的环境模拟器或物理模型能够接收当前状态和候选行动预测下一个状态及观察结果。
这类似于在AI中嵌入一个“小型沙盘”或游戏引擎使Agent可以试探性地演练行动。
早期方法如Dyna模型将环境动态显式存储用于规划现代方法包括生成式模型通过学习来预测未来帧或状态比如“世界模型”算法利用RNN和VAE预测游戏画面走向。
显式模型的优点是可解释、可控但构建准确模型可能复杂。
基于模拟器或工具的范式有些Agent借助外部模拟器或大型预训练模型作为环境模型。
例如用一个物理引擎模拟机器人运动或让语言模型扮演环境反馈角色。
通过这些工具Agent可以尝试不同策略并观察模拟反馈从而调整计划。
这种方法灵活且易于结合人类知识例如预先编写的规则、手册但各部分如何协调更新仍是挑战。
混合范式最新兴的方向是结合隐式和显式的优势或者引入指令驱动的世界模型。
例如COAT方法提示大语言模型推测观测背后的因果因素然后再通过实际交互验证假设将符号推理与学习模型相融合。
这类混合方法有望在不熟悉领域的适应和人机可解释性上取得更好平衡。
世界模型和记忆、感知、行动等模块密切互动。
记忆提供过去环境变化的数据以训练或更新世界模型感知将外界状态转换为世界模型可用的输入行动决定如何利用世界模型的预测来选择最佳操作。
良好的世界模型使Agent能预见自己行动的后果从而更安全高效地决策。
未来的研究方向在于将各种世界模型范式统一到一个框架下使Agent对现实有全面且可更新的内部理解。
奖励奖励机制帮助Agent区分“好行为”和“坏行为”驱动学习并影响决策。
在人类大脑中奖赏通路通过化学物质传递愉悦或满足感从而强化特定行为。
比如中脑边缘多巴胺通路在我们获得食物、赞扬等愉快体验时被激活让大脑释放多巴胺产生快感并强化导致这一结果的行为前额叶皮层的多巴胺活动则与决策和动机调节相关。
这些生物奖励信号促使人类趋利避害、形成学习闭环。
在AI中奖励通常用数值反馈表示是强化学习等算法的核心。
Agent的奖励可以分为几类外部奖励由环境或任务明确给出的奖励信号例如游戏中的分数、任务完成的指标、用户的正面反馈等。
Agent根据外部奖励调整策略最大化累积奖励。
内部奖励由Agent自我产生的激励信号常用于鼓励探索或塑造特定行为倾向。
例如设置“好奇心”奖励促使Agent探索新状态或设置“惩罚”以避免危险动作。
这类似于人类内在动机好奇、成就感驱动行为。
混合奖励综合考虑外部和内部信号。
Agent既追求任务奖励又照顾自身的探索、能量消耗等内部因素以取得更平衡的行为模式。
分层奖励针对复杂任务设计分等级的奖励体系。
高层目标拆解成子目标每完成一小步就给予局部奖励从而逐步引导Agent达成最终目标。
这类似于人类实现大目标时设定阶段性里程碑并给予自己鼓励。
奖励在Agent架构中的作用奖励信号与学习、记忆等模块相互作用。
学习算法尤其强化学习利用奖励调整Agent 参数使其倾向于产生更高奖赏的行为记忆模块可能对高奖赏或强惩罚的经历进行“重点存储”加深印象情绪或内部状态也会受奖励影响——例如高频奖励可对应“积极情绪”使Agent更大胆探索而连续惩罚则类似“挫败感”可能触发谨慎策略。
此外Agent的世界模型可以帮助预测行动可能带来的奖励从而辅助规划。
需要注意的是设计良好的奖励函数十分关键如果奖励设计不当Agent可能学会投机取巧所谓“奖励黑客”行为导致与人类预期不一致的结果。
因此在构建Agent时如何对齐人工奖励与人类真正期望的价值是重要的研究挑战。
情绪情绪是人类思考、决策和社交互动的关键因素它并非与理性对立而是紧密交织在一起影响我们的认知过程。
正如神经科学家安东尼奥·达马西奥在《笛卡尔的错误》一书中指出的如果没有情绪人类很难作出明智决定。
情绪帮助我们快速评估环境设定行动的优先级理解风险和收益并在面对挑战时进行调整。
举例来说适度的焦虑可以促使我们更加谨慎兴奋和好奇心则驱动我们探索新事物。
情绪也促进社会联系让我们能够体验共情、建立信任。
**将情绪融入 AI Agent**如果让AIAgent具备类似情绪的机制有可能提升其智能水平和适应能力。
目前研究者正探索在大型语言模型等AI系统中模拟情绪状态的方法。
例如引入情感标签或内在参数让模型在决策时参考“情绪变量”如兴奋度、沮丧度等从而更灵活地调节反应。
这种情绪模块可以视为Agent的“内部评估系统”类似于人类用直觉和感受辅助判断。
当Agent遇到大量任务时仿真的情绪机制可以帮助其确定哪些任务更紧迫焦虑对应高优先级、哪些信息值得注意好奇对应重点关注从而优化资源分配和决策效率。
麻省理工学院的AI先驱马文·明斯基也在著作《情绪机器》中将情绪描述为“大脑调节思维过程的方式”认为赋予机器一定的情绪特征有助于更有创造性地解决问题。
类比来说如果一个对话AI能模拟同理心情感共鸣它在与人交流时将更容易赢得用户信任并提供更人性化的反馈。
情绪Agent的应用前景与挑战让Agent理解和表达情绪不仅可以提高人机交互体验还能用于心理健康辅助等领域例如打造提供共情对话的AI疗愈助手。
目前这一领域尚处于早期探索阶段主要挑战包括如何定义和表示人工情绪状态如何确保情绪反应合适不过度避免AI出现极端情绪或情绪失控如何结合心理学和伦理学知识来让AI情绪对用户产生正面影响随着研究的深入情绪建模有望让AI更深入地“读懂”人类情感建立起更自然的交流方式。
不过也需要多学科合作慎重考虑安全和道德问题确保情绪赋予不会被滥用或引发负面效应。
总的来说情绪模块是让Agent更接近人类认知和社交能力的重要一步。
感知感知是Agent获取信息、理解环境的门户也是后续认知与行动的基础。
人类拥有高度发达且直观的感知能力我们的多重感官协同工作将视觉、听觉、触觉、嗅觉、味觉等输入无缝转换成对外界的理解。
而且除了五感之外科学家发现人类还有平衡感、疼痛感、温度感、内脏感觉等更多感知类型帮助我们全面感知世界。
相比之下AI的感知系统往往专注于某些模态由工程师精心设计来模拟或增强人类感官。
例如计算机视觉算法充当“机器的眼睛”可以识别图像和视频中的物体与场景语音识别系统充当“机器的耳朵”将声音转化为文字。
尽管AI感知在某些单项任务上如识别人脸、检测特定频率声音已超越人类但是其整体感知能力还远不如人类灵活通用。
人类可以自然地整合多感官信息并在嘈杂、多变的环境中鲁棒地感知而AI系统经常需要针对特定条件调整缺乏人类那种举一反三的直觉。
根据感知输入的形式Agent的感知模块可分为单模态感知只处理一种类型的感官数据比如纯视觉模型或纯文本分析模型。
这类模型深入优化了对某一模态的理解但视野有限。
跨模态感知将一种模态转换为另一种模态的信息比如图像描述生成图像转文字或语音转文字以便结合已有的单模态模型进行处理。
跨模态技术打通了不同感知渠道使信息融合成为可能。
多模态感知直接处理和整合多种感官数据的模型。
例如自动驾驶汽车的感知系统同时利用摄像头图像、雷达点云和GPS数据来全面感知周围环境类人机器人可能将视觉、听觉和触觉反馈结合在一起理解情境。
多模态感知让Agent对环境有更丰富的认知如同人类用多感官感受世界一样。
当前AI感知系统面临挑战包括数据噪声和不确定性、跨环境的泛化能力、以及高维感知数据的实时处理等。
为此有几方面改进方向在模型级别研究者通过更先进的神经网络架构如视觉Transformer、预训练大模型以及更高质量的数据来提升单模态感知性能并探索让模型具有一定的自适应能力以处理噪声或新奇输入。
在系统级别注重感知模块与认知决策模块的协作打造端到端优化的体系。
例如引入主动感知理念让Agent可以控制摄像头角度或询问环境信息从“由内而外”主动获取关键感知从而提高效率和准确性。
通过外部反馈与控制让感知模块不断校准自身。
比如增加人类反馈机制当AI识别错误时由人纠正以改进模型或者通过仿真环境反复测试调整感知算法参数。
此外不同应用场景需要定制感知方案语音助手主要处理听觉和语言自动驾驶则以视觉和雷达为重点……优化感知模块需结合具体任务需求。
未来的关键研究领域在于构建更加通用的多模态感知模型使Agent具备接近人类的环境理解能力并能可靠地运用于多变的现实世界。
行动系统在哲学层面“行动”指Agent为实现某种目标而在环境中执行的行为。
对人类来说行动包括身体运动走路、拿东西、语言交流、乃至思考和使用工具等一系列行为以达成我们所设定的目的。
人类的行动受大脑支配我们通过感知环境、规划步骤、运用肌肉或语言等途径把内在的想法变成外在的影响。
行动体现了主体对外界施加改变的意图和能力。
没有行动再聪明的大脑也无法真正影响世界。
对于AI Agent而言行动系统决定了它如何将决策付诸实施是区别“有行为的Agent”和单纯计算模型的关键。
当前许多大型预训练模型如GPT-4等拥有强大的推理和生成能力但它们本身并没有直接作用于环境的“手和脚”。
换句话说单纯的语言模型再聪明如果只会输出文本而不能实际操作就像一台强大的发动机缺少车轮无法驶向目的地。
因此研究者常将大模型比作Agent的“大脑”而需要增加一个行动系统让它具备真实交互能力才能成为完整的AIAgent。
通过引入行动模块AIAgent可以响应决策去执行更复杂的用户意图例如在现实中移动机器人、在计算机上调用软件工具、与网络环境交互等等。
设计AI的行动系统时有几种思路行动空间范式先明确Agent所处环境中可执行的基本动作集合即行动空间。
对于物理机器人这包括关节转动、行走、抓取等原子动作对于虚拟助手则是调用各种API或输出文本指令等。
精确定义行动空间是基础类似于列出一名棋手的所有合法棋步使Agent知道“能做什么”。
**行动学习范式**赋予Agent通过学习来选择和序列化动作的能力。
常用的方法是强化学习或模仿学习Agent反复尝试不同动作序列根据奖励信号学习哪种行动策略效果最好或模仿人类专家示范习得解决任务的动作步骤。
这个范式强调如何决定做什么让Agent逐步掌握达成目标的技能。
基于工具的行动范式让Agent学会使用外部工具或资源完成任务。
这是扩展行动能力的有效途径。
例如一个Agent遇到数学计算时可以调用计算器API而不必亲自逐位计算需要获取信息时可以调用搜索引擎面对复杂环境可以调用专用软件或数据库查询。
通过学会调用和协调各种工具Agent的“能力边界”被大大拓宽相当于人类利用工具提高自己能力一样。
近年来的AutoGPT等系统正是通过让语言模型调用浏览器、代码运行器等工具实现自主完成复杂任务。
**感知-行动回路与人机差异**行动系统与感知系统相辅相成组成一个闭环控制回路Agent通过感知了解环境状态由认知模块学习、推理、世界模型等决定下一步动作通过行动模块影响环境然后再感知新的状态如此循环。
这类似于人类的感知-思考-行动循环。
但需要注意两点由外而内 vs 由内而外人类的行动既受外部刺激驱动如看到危险立即闪避也受内部目标驱动如计划练琴每天1小时。
AIAgent也需要平衡对环境变化的被动响应和自身目标的主动执行。
在设计行动系统时要考虑让Agent既能及时反应外界又能坚持长远目标不因瞬时干扰偏离任务。
**安全与对齐**拥有强大行动能力的Agent带来巨大利益的同时也引发安全顾虑。
如果决策不当物理机器人可能造成人身伤害软件代理可能误用工具导致损失。
因此对行动系统的约束、监控与人类意图的对齐十分重要。
例如在训练中加入安全守则、设置“急停”机制等确保Agent的行动始终在可控范围内实现目标的方式符合人类的安全与伦理要求。
总而言之行动系统赋予AI Agent以“影响世界”的手段决定了Agent能完成多复杂、多广泛的任务。
只有将强大的认知能力与合适的行动模块结合AI才能真正走出实验室在现实环境中自主地感知、思考并采取行动完成从“理论上的智者”到“现实中的能者”的飞跃。
如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。
那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。
正确的学习路线可以为你节省时间少走弯路方向不对努力白费。
这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。
在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。
以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有
年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。
风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。
本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
以上全套大模型资料如何领取