核心内容摘要
器材室-J-(4)对着镜子:探索自我,重塑理想
文章介绍了AI Agent的核心概念与工作流程由大脑(LLM负责决策规划)、感知(多模态信息采集)和行动(执行交互)三大模块构成。
AI Agent通过感知-大脑处理-行动-反馈的循环迭代流程理解环境并采取行动完成任务。
这种架构使智能体能处理复杂任务实现与环境的智能交互是构建大模型应用的基础框架。
AI Agent 核心概念在了解了AI Agent的起源、发展历程及其定义后我们再来看看AI Agent的核心概念并基于核心概念梳理出智能体的核心流程。
1 核心概念由米哈游联合复旦 NLP 组于2023年9月发布的论文《The Rise and Potential of Large Language Model Based Agents: A Survey》中对智能体的现有研究成果进行了系统概括提出了一个比较全面的通用概念框架见如下图所示 image-20250218150706027图1 基于大语言模型的智能体的概念框架包含三个组成部分大脑、感知和行动。
基于大语言模型的智能体的概念框架由三个关键部分组成大脑、感知和行动**大脑模块**大脑模块作为控制中心是智能体的核心主要由LLM大语言模型构成。
大脑模块不仅存储知识和记忆还承担着信息处理和决策功能。
通过分析、推理、规划过程生成下一步的行动方案同时还具有泛化能力、能够很好地应对未见过的任务展现出智能体的智能。
**感知模块**使智能体可以感知外部环境的变化。
需要将智能体的感知空间从纯文本领域扩展到包括文本、听觉和视觉模态等多模态领域这种扩展使智能体能够更有效地理解和利用来自周围环境的信息。
如通过文字输入、传感器、摄像头、麦克风等建立起对外部世界或环境的感知。
**行动模块**旨在扩展智能体行动空间。
具体来说赋予智能体使用工具技能及具身行动能力能与外部环境或世界进行交互使其能适应环境变化、提供反馈甚至影响和塑造环境。
该框架可以根据不同的应用场景进行定制。
一般来说智能体按以下工作流程运行首先感知模块对应于人类的感官系统如眼睛和耳朵感知外部环境的变化然后将多模态信息转换为智能体可理解的表示形式。
随后大脑模块作为控制中心进行思考、决策等信息处理活动存储经验知识和记忆从记忆中提取有效信息以优化决策。
最后行动模块对应于人类的四肢在工具的辅助下执行操作并对周围环境产生影响。
通过重复上述过程智能体可以不断获得反馈并与环境进行交互。
上图中的例子来说明其工作流程当一个人询问是否会下雨时感知模块会将该指令转换为大语言模型能够理解的表征形式。
然后大脑模块开始根据当前的天气状况以及互联网上的天气预报利用工具获取天气预报信息进行推理。
最后行动模块做出回应并将雨伞递给这个人。
通过重复上述过程智能体能够持续获得反馈并与环境进行交互。
2.
1 大脑模块大脑模块的运行机制在接收到感知模块处理的信息后大脑模块首先转向存储检索知识并从记忆中回忆。
这些结果有助于智能体制定计划、进行推理并做出明智的决策。
此外大脑模块可能会以摘要、向量或其它数据结构的形式保存智能体过去的观察、想法和行动。
同时它还可以更新常识和领域知识等以供将来使用。
基于大语言模型的智能体还可以凭借其固有的泛化和迁移能力适应不熟悉的场景。
智能体的大脑模块主要以大语言模型来构建核心包括以下几个部分**自然语言交互**为了确保有效沟通进行自然语言交互的能力至关重要语言包含着丰富的信息。
除了直观表达的内容之外话语背后可能还隐藏着说话者的信念、愿望和意图。
由于大语言模型LLMs所固有的强大自然语言理解和生成能力智能体不仅能够熟练地用多种语言进行基本的交互式对话 还能展现出深入的理解能力让人类能够轻松地与智能体进行理解和交互。
**知识**在大规模数据集上训练的语言模型能够将广泛的知识编码到其参数中可对各种类型的查询做出正确的响应。
这些知识可以帮助基于大语言模型的智能体做出明智的决策。
但存在些问题模型在训练过程中获取的知识可能会过时甚至从一开始就是错误的。
一个简单的解决方法是重新训练。
但这需要先进的数据、大量的时间和计算资源。
更糟糕的是这可能会导致灾难性遗忘 。
大语言模型可能会生成与源信息或事实信息相冲突的内容 这种现象通常被称为 “幻觉”。
这是大语言模型无法广泛应用于事实性要求严格的任务的关键原因之一。
记忆“记忆” 存储着智能体过去的观察、想法和行动序列。
当面对复杂问题时记忆机制有助于智能体有效地回顾和应用先前的策略。
并使智能体能够借鉴过去的经验来适应不熟悉的环境。
推理与规划推理是人类智力活动的基础是解决问题、决策以及批判性分析的基石。
演绎、归纳和溯因推理是人们普遍认可的主要推理形式。
对于智能体而言推理能力如同人类一样是解决复杂任务的关键。
一些研究实验已被证明通过引导大语言模型在输出答案前先生成推理依据能够激发出其推理能力如具有代表性的思维链Chain-of-ThoughtCoT通过对LLM提示词中要求「think step by step」LLM会把问题分解成多个步骤一步一步思考使得输出的结果更加准确。
还有一些策略如自一致性self-consistency、自优化self-polish、自精炼self-refine和选择推理selection-inference等也被提出用于提升大语言模型的性能后续章节会进行详细解析。
规划是人类应对复杂挑战时的关键策略。
对人类而言规划有助于组织思路、设定目标并制定达成这些目标的步骤。
同样规划能力对于智能体也至关重要推理能力是规划模块的核心。
通过推理智能体将复杂任务分解为更易处理的子任务并为子任务制定合适的行动序列计划。
同时随着任务的推进智能体能够通过内省来调整计划确保其与现实情况更好地契合实现自适应且成功的达成目标。
规划包含两个阶段计划制定在计划制定过程中智能体通常会将总体任务分解为多个子任务。
计划反思制定好计划后对其优点进行反思和评估至关重要。
智能体利用内部反馈机制从模型中获取见解以优化其策略和规划方法。
迁移和泛化能力智能不应局限于特定领域或任务而应涵盖广泛的认知技能和能力适应不同的领域和任务。
该能力包括以下三个方面未见任务泛化研究表明经过大规模语料库训练的语言模型无需进行特定任务的微调就能展现出零样本泛化能力。
具体而言大语言模型能够根据自身理解遵循指令完成在训练阶段未遇到的新任务。
上下文学习众多研究表明大语言模型能够通过上下文学习ICL执行各种复杂任务。
上下文学习是指模型从上下文中的少量示例中学习的能力。
少样本上下文学习通过将原始输入与几个完整示例作为提示来丰富上下文从而提高语言模型的预测性能。
持续学习大语言模型的规划能力在促进智能体持续学习方面的潜力。
持续学习涉及技能的持续获取和更新其核心挑战之一是灾难性遗忘即模型在学习新任务时往往会遗忘先前任务的知识。
利用大语言模型的规划能力来结合现有技能可以有效应对灾难性遗忘问题。
2.
2 感知模块人类和动物依靠眼睛、耳朵等感觉器官从周围环境收集信息。
这些感知输入被转换为神经信号并发送到大脑进行处理使得能够感知世界并与之互动。
同样对于基于智能体而言通过感知模块将这些信息传递给大脑模块进行处理。
接收各种来源和模态的信息至关重要使智能体更好地理解环境、做出明智决策。
智能体的多模态感知能力主要包括**文本输入**基于LLM的智能体已经具备强大的语言生成和理解能力具备通过自然语言与人类及其它智能体进行交流的基本能力。
在文本输入中除了明确表达的内容外背后还隐藏着信念、欲望和意图。
理解隐含意义对于智能体把握人类用户的潜在和内在意图至关重要从而提高其与用户的沟通效率和质量。
**图像输入**LLMs 本身并不具备视觉的感知能力只能理解离散的文本内容而图像输入通常包含有关世界的大量信息包括物体的属性、空间关系、场景布局等智能体周围的信息。
针对LLMs无法理解图像中的信息常见的解决方法有图像字幕为图像输入生成相应的文本描述即图像字幕从而被LLM理解。
这种方式并且无需为字幕生成进行额外的训练从而可以节省大量的计算资源但字幕生成是一种低带宽方法在转换过程中可能会丢失大量潜在信息。
图像编码器和大语言模型结合研究尝试将图像编码器和大语言模型直接结合使用 Transformer 对视觉信息进行编码通过对齐视觉编码器和大语言模型将图像编码转换为大语言模型能够理解的嵌入。
以端到端的方式训练整个模型。
这使智能体实现卓越的视觉感知能力但需要大量的计算资源成本。
**视频输入**视频输入由一系列连续的图像帧组成。
因此智能体用于感知图像的方法可能也适用于视频领域与图像信息相比视频信息增加了时间维度。
因此智能体需要对视频中不同帧之间时间关系进行理解。
**听觉输入**当智能体具备听觉能力时它可以提高对交互内容、周围环境的感知。
有两种方法实现听觉能力利用智能体的工具使用能力智能体可以使用LLMs作为控制中心调用现有的工具集或模型库来感知音频信息。
例如AudioGPT充分调用了FastSpeech文本到语音、GenerSpeech风格转换、Whisper语音识别等模型的功能。
将感知方法从视觉领域迁移到音频领域对于一段时间内的一段音频数据可以将其抽象为有限长度的音频频谱图。
采用类似于 ViT 的 Transformer 架构来处理音频频谱图图像。
通过将音频频谱图划分为补丁实现对音频信息的有效编码。
将音频编码与其它模态的数据编码对齐来训练整个模型。
使得模型实现感知能力。
**其他输入**引入现实世界的更多的输入配备更丰富的感知模块。
例如触觉和嗅觉感知周围环境的温度、湿度和亮度眼球追踪、身体动作捕捉3D 地图、甚至是脑机交互中的脑波信号。
此外还可以引入对更广阔的整体环境的感知采用激光雷达、GPS、惯性测量单元等成熟的感知模块。
2.
3 行动模块人类感知环境后大脑会对感知到的信息进行整合、分析和推理然后做出决策。
随后人类利用神经系统控制身体从而对环境做出适应性或创造性的反应例如进行对话、躲避障碍或生火。
在智能体的构建中行动模块接收大脑模块发送的行动序列并执行行动与环境进行交互。
智能体的行动能力包括以下几个方面**文本输出**基于LLM的智能体固有的语言生成能力。
它可以生成流畅性、相关性、多样性等方面表现出色的文本。
**工具使用**工具扩展智能体的行动空间。
智能体利用工具与外部环境交互例如通过搜索工具查询网页信息来获取即时资讯、调用SQL执行器来查询数据库获取专业知识、 利用Python 解释器来执行复杂数学计算任务等等。
**具身行动**在追求通用人工智能AGI的过程中具身智能体被视为一个关键范式它致力于将模型智能与物理世界相结合。
智能体的行为不再局限于纯文本输出或调用特定工具来执行特定领域任务。
相反它们应该能够主动感知、理解并与物理环境进行交互基于语言模型丰富的内部知识做出决策并产生特定行为来改变环境。
我们将这些统称为具身行动它使智能体能够以与物理世界进行交互和理解。
2 核心流程在对AI Agent的核心概念有了整体了解后我们可以梳理出AI Agent大致的工作流程。
如下图所示AI Agent的工作流程是AI Agent通过感知模块观察环境收集环境信息如文本、图片、视觉、3D 地图等多模块信息将这些信息传递给大脑模块进行处理大脑模块基于内部的世界知识、环境的状态及记忆进行思考、规划并决策生成下一步的行动计划最后执行具体行动如调用工具与环境进行交互行动结果会对环境产生新的影响。
这个过程会迭代进行直到完成目标。
AI Agent 的工作流程核心包括以下三个模块**感知Perception**指 AI Agent 观察周围环境并从环境中收集信息提取有用的数据。
Agent 所收集的信息包括文本、听觉、视觉等多模态领域。
为了使智能体更好地理解环境能够接收多模态的信息是至关重要的。
**大脑Planning/decision**大脑模块核心是进行规划和决策它根据感知模块收集的环境状态信息结合内部的世界知识和记忆进行规划并做出决策为达成目标任务生成下一步的行动计划。
规划和决策通常由LLM大语言模型来承担除此之外还包括World Knowledge具备丰富的世界知识由大语言模型在训练中得到并固化在模型参数中。
State当前环境的状态信息。
Memory记忆保持了历史的思考决策过程及过去的行动计划。
Reflection反思是根据当前的环境状态信息和历史行动结果进行
总结生成更高级别抽象的见解作为经验信息并存储在记忆中以优化未来的决策该功能使得AI Agent具有自我迭代学习能力如在错误中
总结教训并在后续步骤中完善。
**行动Action**指 AI Agent 执行策略做出的具体行动比如输出文本使用搜索工具查询网页信息、调用API访问外部服务等等。
行动会产生多样的结果并影响环境状态。
行动结果和环境状态的变化进一步被感知模块观察到作为下一轮的输入。
这个过程不断迭代直到完成目标。
如果用一个公式来表达 AI Agent可以表示为AI Agent PerceptionObservation BrainLLMStateMemoryReflection ActionToolAI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。
大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享
从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点
AI大模型学习路线图还有视频解说全过程AI大模型学习路线
学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的
大模型面试题目详解
这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。
目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。
这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。
课堂上不光教理论还带着学员做了十多个真实项目。
学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】