核心内容摘要
极简与繁复的博弈:拆解“扌喿辶畐”与“畐畬”的感官版图
本文探讨了构建可靠智能体系统的关键因素重点分析了成本、延迟和准确率三个维度的权衡关系。
文章介绍了五种提升准确率的生产技术规划器-执行器架构、思维链提示、验证智能体、多智能体并行化和文件系统状态管理。
每种技术都详细阐述了其对评估标准的影响及适用场景。
作者强调应从简单开始根据任务复杂度和约束条件选择合适技术并通过持续测量和迭代优化系统性能。
你有没有想过为什么同样的 AI 模型在不同系统中的表现天差地别当你让 AI 帮你写一段代码有时它能完美完成任务有时却连基本的逻辑都搞错。
这背后隐藏着一个被很多人忽视的问题如何构建一个真正可靠的智能体系统今天我想分享一篇文章来深入探讨这个话题。
这篇介绍了将智能体系统准确率提升 50% 的实用模式以及它们所带来的成本代价。
以下内容译自 《Agentic System Patterns That Increased Accuracy by 50% (And What They Cost)》。
智能体系统已经开始被部署用于处理复杂任务构建软件、进行研究、分析数据和自动化工作流程。
但随着它们从原型走向生产环境团队面临着一个根本性问题如何构建一个能够可靠处理任何任务的智能体系统答案不仅仅是更好的提示词或更复杂的模型而是要理解三个关键维度之间的权衡•成本- API 调用、计算资源、基础设施•延迟- 任务完成时间、用户体验•准确率- 正确性、可靠性、边界情况处理真相是大多数提高准确率的技术也会增加成本和延迟。
多步推理、并行验证、自我修正循环——它们都能让系统变得更好但代价不菲。
关键在于知道何时付出这个代价以及如何在你的约束范围内进行优化。
这篇文章提炼了在生产环境中构建智能体系统的经验教训。
每个技巧都包含对成本、延迟和准确率的具体影响指标以及何时应用的指导原则。
读完本文后你将拥有一个框架可以就智能体系统架构做出明智决策。
注这篇文章的灵感来自于最近使用 Blackbox AI 完成多个编码任务的经历观察到他们的自主智能体如何处理规划、执行和自我修正这已是智能体系统中常见的模式。
让我想要记录下使智能体系统在生产环境中工作的底层模式。
评估标准成本、延迟和准确率构建智能体系统时每个决策都会影响这三个维度。
理解如何衡量和平衡它们对于生产系统至关重要。
成本含义运行智能体系统的总财务支出。
组成部分•API 成本- LLM API 调用输入/输出 Tokens、Embedding API、视觉 API•计算成本- 服务器基础设施、容器编排、数据库查询•基础设施成本- 存储、网络、监控工具•数据成本- 检索系统、向量数据库、数据处理管道如何衡量跟踪每次请求的成本、月度支出和每次成功任务完成的成本。
成本因模型选择、上下文长度、API 调用次数和基础设施要求而有很大差异。
延迟含义从用户提交任务到收到最终结果的时间。
组成部分•LLM 推理时间- 模型生成延迟因模型和上下文长度而异•工具执行时间- API 调用、数据库查询、代码执行•网络延迟- API 往返、数据检索•顺序处理- 等待前序步骤完成如何衡量跟踪端到端延迟p
p
p
每步时间和用户感知的等待时间。
可接受的延迟取决于你的用例——实时系统的要求比批处理更严格。
准确率含义系统输出的正确性和可靠性。
组成部分•任务完成率- 成功完成的任务百分比•输出质量- 结果的正确性、边界情况处理•错误率- 幻觉、工具使用错误、执行失败•一致性- 相似输入之间的可重复性如何衡量使用特定任务的指标代码正确性、答案准确性、人工评估、自动化测试和错误跟踪。
目标准确率取决于你的领域和错误的代价。
准确率 f(成本, 延迟)决策框架何时使用什么在深入具体技术之前有一个框架可以帮助你根据约束条件和需求决定应用哪些技术。
步骤 1定义约束条件首先明确定义你的约束条件•成本预算你的每次请求成本或月度预算是多少•延迟要求你的可接受响应时间是多少实时 2 秒准实时 10 秒批处理可以是分钟/小时•准确率要求你需要什么准确率水平取决于错误代价高风险需要 95% 以上原型可以容忍
%步骤 2评估任务复杂度评估你的任务•简单任务单步、直接的操作分类、提取、简单 API 调用•中等复杂度具有明确依赖关系的多步任务数据处理管道、多工具工作流•高复杂度需要推理、规划或处理不确定性的任务研究、代码生成、复杂问题解决步骤 3选择起点对于简单任务• 从思维链开始如果需要推理• 跳过规划器-执行器开销不划算• 跳过验证智能体除非是高风险任务• 考虑使用文件系统以增强可观察性对于中等复杂度• 使用规划器-执行器架构• 为推理密集型步骤添加思维链• 使用文件系统进行状态管理• 在关键决策点考虑验证智能体对于高复杂度• 使用规划器-执行器架构必不可少• 添加验证智能体计划验证 关键里程碑• 对关键输出考虑多个智能体• 始终使用文件系统进行状态和调试• 全程使用思维链步骤 4根据结果迭代测量基线成本、延迟、准确率应用技术一次一个评估对所有三个维度的影响优化移除不提供足够价值的技术记住要从简单开始测量一切只在提供明确价值时才增加复杂性。
生产技术
规划器-执行器架构含义将智能体分解为两个专门的组件一个将任务分解为子任务的规划器和一个执行这些子任务的执行器。
工作原理•规划器智能体接收高层任务并生成包含子任务、工具选择和参数的结构化计划•执行器智能体接收计划并使用指定的工具按顺序执行每个步骤•替代方案使用单个智能体在一次调用中生成计划包括工具选择和参数然后执行它示例Task: Build a REST API for user authentication - Planner Agent generates:
Create database schema (tool: sql_executor)
Implement login endpoint (tool: code_generator)
Add password hashing (tool: code_generator)
Write tests (tool: test_generator) - Executor Agent runs each step真实案例Blackbox AI 的自主编码智能体使用这种模式进行代码生成。
它解释目标将其转换为有序的文件编辑计划然后通过编写和修改代码来执行该计划。
明确的规划→执行分离帮助它更可靠地处理多步任务。
对评估标准的影响•成本
1.
x额外的规划 LLM 调用但执行更高效•延迟500ms-2s规划开销但更好的任务完成减少了重试•准确率
%明确的规划减少错误更好的工具选择何时使用• 从明确规划中受益的复杂、多步任务• 工具选择至关重要的任务• 当你需要可解释、可调试的工作流时• 对于开销不划算的简单、单步任务应避免使用
思维链提示含义一种提示工程技术要求模型在得出最终答案之前展示其推理过程。
工作原理• 添加诸如逐步思考或展示你的推理之类的指令• 提供具有明确推理链的少样本示例• 模型生成中间推理步骤然后生成最终答案• 与少样本示例结合使用时效果尤其好示例Query: Whats the best database for this use case? Think step by step What are the requirements? (scale, consistency, latency) What are the trade-offs? Which databases match these requirements? Final recommendation: [answer]真实案例这种模式在生产工作流中很常见如调试和根本原因分析其中即使最终答案很短中间推理也能减少错误。
对评估标准的影响•成本
3-
8x推理步骤增加
% 的输出令牌•延迟200ms-1s由于更多令牌导致的更长生成时间•准确率
%特别是在复杂推理任务、数学、逻辑方面何时使用• 复杂推理任务数学、逻辑、多步问题• 当你需要调试模型思维时• 从明确的中间步骤中受益的任务• 对于不需要推理开销的简单分类或提取任务应避免使用额外好处思维链在切换不同模型时提高鲁棒性因为推理步骤使过程更加透明和可调试。
验证智能体的战略使用含义使用单独的智能体来验证计划或输出并提供改进反馈。
工作原理•计划验证验证器在执行前审查规划器的输出提供反馈规划器进行改进•输出验证在每个执行步骤后验证器检查结果提供反馈规划器调整剩余步骤• 不要验证每个 LLM 调用。
要战略性地考虑验证在何处增加最大价值示例Planner generates plan - Verifier checks: - Are all steps necessary? - Are tools correctly selected? - Are there missing steps? - Feedback to planner - Refined plan - Execute真实案例Blackbox AI 的自主智能体使用自我修正作为内置的验证机制。
生成代码后它会自动测试和验证更改是否按预期工作。
如果出现错误它会分析问题、调试代码并尝试新方法——本质上是作为一个连续循环中自己的验证智能体。
这种自我修正持续到任务完成展示了验证如何直接集成到执行周期中而不是作为一个单独的步骤。
对评估标准的影响•成本
1.
x额外的验证 LLM 调用因频率而异•延迟每个验证步骤
s模型调用 反馈循环•准确率
%及早发现错误提高计划质量何时使用• 错误代价高昂的高风险任务• 从审查中受益的复杂计划• 当你无法承担执行失败时• 避免验证每一个步骤。
专注于关键决策点或最终输出最佳实践• 在执行前验证计划一次及早发现问题• 在关键里程碑验证输出而不是每一步• 对简单检查使用轻量级验证对复杂决策使用完整验证
使用多个智能体并行化含义并行运行多个智能体以生成计划或输出然后使用评判器/聚合器选择或组合最佳结果。
工作原理•计划生成2 个或更多具有不同配置的智能体并行生成计划评判器选择最佳•输出生成多个智能体并行生成最终输出评判器基于质量、效率、错误倾向选择最佳•评判智能体使用评估标准质量、正确性、效率评估输出Multiple Agents真实案例Blackbox AI 使用这种方法进行代码生成任务。
用户选择
个不同的模型Claude、Codex、Gemini 或 Blackbox并行处理同一任务。
每个智能体在单独的 Git 分支中生成代码AI 评判器根据质量、效率和错误倾向评估所有输出以选择最佳实现。
并行执行意味着延迟大致与单个智能体相同而通过集成效应准确率显著提高。
对评估标准的影响•成本
xN 个智能体 × 每个智能体的成本 评判器成本•延迟
s并行执行意味着延迟 ≈ 最慢的智能体但评判器增加开销•准确率
%集成效应N 选一何时使用• 需要最高准确率的关键任务• 当你有并行执行的预算时• 输出质量差异较大的任务• 对于简单任务或成本/延迟约束紧张时应避免使用优化提示从
个智能体开始。
收益递减很快出现。
5 个智能体可能只比 3 个好
%但成本高 67%。
使用文件系统维护状态含义使用文件系统markdown、文本文件或结构化格式来维护状态、跟踪进度并在智能体调用之间提供上下文。
工作原理•计划存储将初始计划作为待办事项列表写入文件•进度跟踪记录每个工具调用、其参数和结果•上下文构建使用文件作为后续智能体调用的上下文保持对已完成工作的了解•状态持久化文件在智能体调用之间持久存在实现可恢复的工作流真实案例Claude Code 广泛使用这种方法。
它通过 markdown 文件维护持久状态如CLAUDE.md项目规则和系统提示、NOW.md当前工作状态、progress.md执行日志和task_plan.md即将到来的任务。
这些文件在会话之间持久存在允许 Claude 恢复工作保持对已完成工作的了解并避免重复之前的步骤。
文件系统充当智能体的记忆每个文件在维护长期状态和项目连续性方面都有特定用途。
示例Task: Build authentication API Plan - [x] Create database schema - [x] Implement login endpoint - [ ] Add password hashing - [ ] Write tests Execution Log Step 1: Database Schema Tool: sql_executor Input: CREATE TABLE users... Output: Table created successfully Step 2: Login Endpoint Tool: code_generator Input: Generate Flask login route Output: [code generated]对评估标准的影响•成本
%略长的上下文窗口但减少冗余工作•延迟
ms文件 I/O 开销但实现更好的上下文•准确率
%更好的上下文感知减少重复错误实现恢复何时使用• 长时间运行、多步任务• 当你需要可恢复的工作流时• 之前步骤的上下文至关重要的任务• 调试和可观察性需求• 始终建议用于生产系统。
开销最小收益显著额外好处• 支持人在回路工作流人类可以审查/编辑文件• 提供审计跟踪和调试信息• 允许部分执行和从失败中恢复结论构建生产就绪的智能体系统需要平衡成本、延迟和准确率。
我们介绍的技术——如规划器-执行器架构、思维链、验证智能体、多个智能体和文件系统状态管理——是经过验证的构建块以更高的延迟和费用为代价提高准确率。
关键要点从评估标准开始始终衡量成本、延迟和准确率。
你无法优化你不衡量的东西。
从简单开始从最小可行架构开始。
只在提供明确价值时才增加复杂性。
使用决策框架评估你的约束条件和任务复杂度以选择正确的技术。
战略组合技术协同工作得更好但要注意累积成本。
规划器-执行器架构通常是最佳的首选添加。
文件系统几乎总是值得的开销最小收益可观察性、调试、可恢复性显著。
迭代和测量生产系统会演进。
持续测量你的指标并根据实际性能调整你的架构。
这里的技术构成了坚实的基础但生产系统还有额外的考虑因素错误处理、重试逻辑、速率限制、监控、安全性和可扩展性。
这些将在
分中介绍我们将深入研究运营关注点、优化策略和高级模式。
目前从这五种技术开始测量一切并根据你的特定约束和要求进行迭代。
框架是你的指南但你的指标才是真相。
普通人如何抓住AI大模型的风口为什么要学习大模型在DeepSeek大模型热潮带动下“人工智能”赋能各产业升级提速。
随着人工智能技术加速渗透产业AI人才争夺战正进入白热化阶段。
如今近**60%的高科技企业已将AI人才纳入核心招聘目标**其创新驱动发展的特性决定了对AI人才的刚性需求远超金融
4
1%和专业服务业
2
7%。
餐饮/酒店/旅游业核心岗位以人工服务为主多数企业更倾向于维持现有服务模式对AI人才吸纳能力相对有限。
这些数字背后是产业对AI能力的迫切渴求互联网企业用大模型优化推荐算法制造业靠AI提升生产效率医疗行业借助大模型辅助诊断……而餐饮、酒店等以人工服务为核心的领域因业务特性更依赖线下体验对AI人才的吸纳能力相对有限。
显然AI技能已成为职场“加分项”乃至“必需品”越早掌握越能占据职业竞争的主动权随着AI大模型技术的迅速发展相关岗位的需求也日益增加。
大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。
如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议如果你真的想学习大模型请不要去网上找那些零零碎碎的教程真的很难学懂你可以根据我这个学习路线和系统资料制定一套学习计划只要你肯花时间沉下心去学习它们一定能帮到你大模型全套学习资料领取这里我整理了一份AI大模型入门到进阶全套学习包包含学习路线实战案例视频书籍PDF面试题DeepSeek部署包和技巧需要的小伙伴文在下方免费领取哦真诚无偿分享vx扫描下方二维码即可部分资料展示
AI大模型学习路线图这份路线图以“阶段性目标重点突破方向”为核心从基础认知AI大模型核心概念到技能进阶模型应用开发再到实战落地行业解决方案每一步都标注了学习周期和核心资源帮你清晰规划成长路径。
全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。
大模型学习书籍文档收录《从零做大模型》《动手做AI Agent》等经典著作搭配阿里云、腾讯云官方技术白皮书帮你夯实理论基础。
大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。
适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。
大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-
5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。
快速开发一个完整的基于 agent 对话机器人。
掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。
为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。
到此为止大概2个月的时间。
你已经成为了一名“AI小子”。
那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。
硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。
天道酬勤你越努力就会成为越优秀的自己。
如果你能在15天内完成所有的任务那你堪称天才。
然而如果你能完成
% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】