核心内容摘要
开箱即用!AnythingtoRealCharacters2511镜像部署与动漫转真人实战
前言AI Agent人工智能代理是上半年一个火热的话题。
笔者最近对相关概念进行了学习与研究期间也通过智能体开发平台成功搭建了一些有趣的Agent。
所以计划通过本篇文章跟大家分享笔者对于AI Agent的些许理解。
AI Agent是什么AI Agent即人工智能体是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。
简单理解是一种基于大语言模型能够通过独立思考、调用工具来逐步****完成给定目标的计算机程序。
可能大家会疑问AI Agent又和LLM、RAG有什么区别他们之间的关系又是怎样的我们不妨先通过对比 LLM、RAG 的用途来更好地理解 AI Agent。
LLMLLM大语言模型是基于海量文本数据训练的深度学习模型能够生成自然语言文本、深入理解文本含义并处理各种自然语言任务如文本摘要、问答、翻译等。
简单理解是语言的逻辑推理如我们常见的Chat GPT、文心一言、通义千问等但由于LLM的知识是提早训练好的内容时效性不强加上用于训练的知识一般来源于公域的标准化知识存在局限性。
为了解决LLM知识有限的问题需要把外部的知识提供给LLM进行学习让它理解之后表达出来这时候就需要用到RAG技术。
RAGRAG检索增强生成是一种结合了外部信息检索与大型语言模型生成能力的技术用于处理复杂的信息查询和生成任务。
在大模型时代RAG 通过加入外部数据如本地知识库、实时数据等来增强 AI 模型的检索和生成能力提高信息查询和生成质量。
比如文心一言的插件服务支持把实时又或者私有化知识提供给LLM。
总结而言RAG是一种技术作用于LLM目的是增加输出结果的准确性。
AI Agent与LLM、RAG的关系如果把AI Agent理解为一个智能实体的话LLM充当着智能体的“大脑”角色。
AI Agent 会利用 LLM 的推理能力把问题进行拆解形成一个一个的小问题并定义好这些小问题之间的前后关系先处理哪个再处理哪个。
然后按照顺序调用 LLM 、 RAG 或者外部工具来解决每一个小问题直至解决最初的问题。
AI Agent的基础架构上文提及到LLM充当着智能体的大脑但仅仅有“大脑”并不能完成复杂任务的执行。
作为智能体还需要如“神经感官系统”以及“肢体”的参与这时候引入AI Agent的基础架构。
▲由LLM驱动的智能体系统如上图所示Agent由4个关键部分组成分别是规划Planning、记忆Memory、工具Tools、行动Action
规划Planning“规划”充当着智能体的“思维模式”。
如果用人类来类比当接到一个任务时我们的思维模式可能会像下面这样首先会思考怎样完成这个任务。
然后会把任务拆解成多个子任务分步进行。
接着评估现有工具能够帮助我们高效达成目的。
在执行任务的时候我们会对执行过程进行反思和完善以持续调整策略。
执行过程中思考任务何时可以终止。
因此我们可以通过 LLM 提示工程Prompt为智能体赋予这样的思维模式。
比如在编写Prompt的时候运用ReAct、CoT等推理模式引导LLM对复杂的任务进行拆解拆分为多个步骤一步步思考和解决从而使输出的结果更加准确。
记忆Memory****************记忆是什么当我们在思考这个问题其实人类的大脑已经在使用记忆。
记忆是大脑存储、保留和回忆信息的能力。
仿照人类的记忆机制智能体分为了两种记忆机制短期记忆如单次会话的上下文记忆会被短暂的储存以用于多轮会话在任务完结后被清空。
长期记忆长时间被保留的信息如用户的特征信息、业务信息通常用向量数据库来存储和快速检索。
工具Tools****************智能体具备感知环境与决策执行的能力这离不开“神经感官系统”的帮助“工具”便充当着这个角色。
智能体通****过工具从周边环境获取到信息感知经过LLM处理后再使用工具完成任务执行。
所以我们需要为智能体配备各种工具以及赋予它使用工具的能力。
比如通过调用软件系统不同应用模块的API获取到指定的业务信息以及执行业务的操作权限。
通过调用外部的插件工具来获取原本LLM并不具备的能力如文心的Chat files插件获取文档解析能力扣子的ByteArtist插件获取文生图能力等。
这里便运用到了上文提及的RAG相关技术▲扣子平台的插件商城
行动Action****************智能体基于规划和记忆来执行具体的行动这可能包括与外部世界互动或者通过工具的调用来完成一个动作具体来说就是一个输入Input任务的最终输出Output。
如实体AI机器人完成一个“鼓掌”动作的任务又或者软件系统中由AI助手创建一个待办任务。
▲Cyberdog2完成“鼓掌”任务
AI Agent示例为了更好地理解AI Agent笔者这里举个生活中简单的例子假设您需要与朋友在附近吃饭需要AI Agent帮你预订餐厅。
Agent会先对您提出的任务进行拆解如第1步获取当前所在方位推理1当前知识不足以回答这个问题需要知道当前所在方位以及附近的餐厅行动1使用地图工具Tools获取当前所在方位结果1得出附近餐厅列表第2步确定匹配餐厅推理2确定预订的餐厅需要知道您的饮食偏好以及其余细节如吃饭时间、人数行动2从记忆Memory中获取您的饮食偏好、人数、时间等信息结果2确定最匹配的餐厅第3步预订餐厅推理3基于结果2评估当前所拥有的工具能否完成餐厅预订行动3使用相关插件工具进行餐厅预订Aciton结果3任务完成
Agent与To B产品应用场景对AI Agent有了初步的了解后我们可以把这套框架思想代入到To B产品的功能AI化设计中。
比如通过AI Agent完成搭建报表、创建任务、生成工作报告等工作。
这里拿**【生成工作报告】**为例子分享一下笔者的思路在CRM系统中写工作报告周报、月报是一个周期性的高频工作。
这个工作可分为几个阶段
手动阶段刚开始员工填写工作报告需要以下好几步第一步通过各种方式整理汇报周期内联系了哪些客户商机都推进到什么阶段哪些客户完成转化成交成交业绩多少等行为信息第二步把零散的行为信息重新梳理转化为汇报格式如内容当前进度预期等格式第三步选择汇报人提交报告这个过程中员工把大部分的时间都耗在了收集与整理行为信息的工作上。
▲手动阶段写工作周报
Copilot阶段由于引入了LLM员工在写工作报告的时候可以省去了整理零散信息撰写报告的一步。
此时只需要把报告要求发给LLM让LLM基于零散的数据信息进行加工整理最后自动撰写工作报告。
当提问中不含有汇报人等信息LLM将通过多轮会话的方式进行获取。
Agent阶段到了Agent的阶段我们不妨以智能体的基础框架出发构建**【工作报告智能体】**的框架。
规划Planning编写Prompt的时候让LLM对“生成工作报告”任务进行拆解分为了获取基础数据—整理输出报告—选择汇报人—执行提交四步。
工具Tools受限于LLM无法获取私有化知识的问题通过RAG技术接入数据中心API来获取客户联系、流转、成交等明细数据以及接入工作报告应用API来获取“填写”与“提交”的业务执行权限。
记忆Memory把员工以往的汇报内容进行分析提炼出汇报文案风格、内容格式、汇报周期、汇报人等特征信息作为长记忆进行存储供撰写报告时使用。
行动Action基于工作报告应用开放的执行权限待LLM成功生成工作报告后自动执行提交操作完成任务。
▲工作报告智能体框架通过这个方式员工只需要给Agent下达写工作报告的任务设置定时任务或手动触发Agent将会自动完成数据采集、报告撰写、选择汇报人、报告提交操作。
▲工作报告智能体demo
六、
总结如果把“To B软件的AI化”类比于汽车自动驾驶技术的发展。
23年LLM的推出相当于To B软件应用的自动化程度由L1阶段升级到L2阶段AI Agent的到来让自动化程度得到了进一步的提升由L2阶段升级到L4阶段。
▲人类与AI协同的三种模式随着AI Agent自主性的进一步加强将会逐渐替代越来越多的重复性工作。
但从To B软件的角度来看AI最终解决的核心问题仍然不变—「降本增效」。
因此作为产品经理在提升自己AI能力的同时还要持续提高自己对于产品所在行业的业务理解能力。
毕竟在****没有找到核心场景前就算配套再先进的工具也带来不了任何价值。
学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】