首页速度优化14岁张婉莹：镜头下的初中时光，绽放独一无二的青春之光

网站优化

《天天弄：解锁生活无限可能，让热爱点亮每一天》

探索“小黄书网址”背后的无限可能，不止是你想的那样！

2026-06-12 16:29:24

阅读时长:7分钟

562次阅读

核心内容摘要

倾听自然之语：解析身体的独特魅力与生活哲学

本文系统解析了让大模型成为智能体的四大适应范式包括基于工具执行结果(A

、最终输出(A

优化智能体以及独立(T

或受监督(T

优化工具。

通过对比各范式的训练成本、灵活性和适用场景为开发者提供了从能说到会做的实用指南帮助构建更高效、更可靠的AI智能体系统。

大模型爆发之后「让模型动起手来」成为新战场——搜索、写代码、调 API、开网页甚至自己发 PR。

但原生 LLM 并不会“动手”于是出现「智能体 AIAgentic AI」Agent LLM大脑工具手脚记忆海马体规划前额叶问题随之而来工具用不好 → 调用失败、幻觉频发场景一换 → 性能断崖长程任务 → 忘记初衷作者: UIUC、斯坦福、普林斯顿、哈佛、UC Berkeley 等 30 学者联合出品包括韩家炜大佬数据挖掘第一人解法只有一个适应Adaptation。

另外做好Agentic AI应用的基础是高质量的结构化数据[在OCR面前大模型虽好但恕我直言开源小模型更香]1️⃣ 一张图俯瞰全文4 大适应范式Figure-1 四范式总览范式优化谁信号来源典型招式A1智能体工具执行结果Toolformer → DeepSeek-R1A2智能体自己最终输出DeepSeek-R1 → Kimi-

5T1工具与智能体无关稠密检索器、HuggingGPTT2工具智能体输出监督S

AgentFlow、自适应记忆一句话记忆A1/A2 改脑子T1/T2 改外挂A1/T1 不用管对方A2/T2 互相看脸色。

论文的结构时间线关键论文速览时期代表工作突破点2023 Q1Toolformer首次用工具执行结果做自监督2023 Q2GorillaAST 校验 API 调用格式2024 Q2DeepRetrievalRLVR 引入检索度量奖励2025 Q1DeepSeek-R1纯 RL 让模型学会“反思”2025 Q2Kimi-

5多模态大规模 GRPO2025 Q4本文综述把以上全部装进 4 个盒子3️⃣ 范式深潜公式例子论文链接

1 A1工具执行信号 → 改智能体数学形式A∗ arg maxA Otool(A,T)reward 工具返回的可验证结果代码跑通/检索召回/定理证明步Figure-4 A1 方法时间轴经典案例DeepRetrievalCOLM’25用 PPO 把搜索查询当 actionRecallK 当 reward3× 提升文献检索。

DeepSeek-Prover-V2Lean4 证明步正确即 1错误即 0GRPO 训练SOTA 定理证明。

2 A2智能体最终输出 → 改智能体数学形式A∗ arg maxA Oagent(A,T)reward 答案正确性EM、F

人类偏好Figure-5 A2 方法时间轴经典案例DeepSeek-R1Nature’25纯 RL无 SFT数学 Benchmark 直接拉满首次出现“自我反思”涌现。

Search-R1COLM’25检索生成端到端 RL答案对则奖励高自动学会“何时搜、搜什么”。

3 T1智能体无关 → 改工具数学形式T∗ arg maxT Otool(T)训练时完全不 care智能体是谁训好即可插拔。

经典案例稠密检索器DPR、Contriever对比学习训完任何 LLM 都能调用。

HuggingGPT把 HF 上所有模型当工具LLM 只负责调度。

4 T2智能体输出 → 改工具数学形式T∗ arg maxT Oagent(Afixed,T)工具更新目标让固定智能体下游任务更准。

T2方法时间线经典案例S3ICLR’24可学搜索子智能体用主 LLM 的最终答案正确性当 rewardGRPO 更新。

自适应记忆Reflexion、Memento记忆模块工具LLM 输出反思文本 → 写入记忆下次检索更准。

4️⃣ 如何选型一张对比表告诉你维度A1A2T1T2训练成本高整模型高整模型低只工具低只工具灵活性高任意工具高任意工具中需接口中需接口跨任务泛化中易过拟合中易过拟合高工具无关中绑定主 LLM模块化差一体差一体好即插即用好工具可热插拔代表场景代码解释器、定理证明数学推理、搜索问答稠密检索、API 调用自适应搜索、记忆作者建议穷但有卡→ A1/A2 直接上 RL上限最高穷且没卡→ T1/T2 训小工具GPT-4/Claude 当大脑既要又要→ 级联T1 检索 T2 重排 A1 推理三段式最稳5️⃣ 应用秀场他们这样落地领域系统使用范式深度研究DeepResearcherA2 T2 多轮搜索→

总结软件开发R1-Code-InterpreterA1 代码执行反馈计算机使用WebGen-AgentA1 多模态截图奖励药物发现MedResearcher-R1T2 医学检索微调一些思考让大模型“动手”只是第一步让它“越用越顺手”才是终极战场。

一张地图A1/A2 改脑子T1/T2 改外挂穷则精准工具富则全模型 RL结合食用效果更佳AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。

大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

《天天弄：解锁生活无限可能，让热爱点亮每一天》

核心内容摘要

倾听自然之语：解析身体的独特魅力与生活哲学

、最终输出(A

优化智能体以及独立(T

或受监督(T

优化工具。

5T1工具与智能体无关稠密检索器、HuggingGPTT2工具智能体输出监督S

AgentFlow、自适应记忆一句话记忆A1/A2 改脑子T1/T2 改外挂A1/T1 不用管对方A2/T2 互相看脸色。

5多模态大规模 GRPO2025 Q4本文综述把以上全部装进 4 个盒子3️⃣ 范式深潜公式例子论文链接

1 A1工具执行信号 → 改智能体数学形式A∗ arg maxA Otool(A,T)reward 工具返回的可验证结果代码跑通/检索召回/定理证明步Figure-4 A1 方法时间轴经典案例DeepRetrievalCOLM’25用 PPO 把搜索查询当 actionRecallK 当 reward3× 提升文献检索。

2 A2智能体最终输出 → 改智能体数学形式A∗ arg maxA Oagent(A,T)reward 答案正确性EM、F

人类偏好Figure-5 A2 方法时间轴经典案例DeepSeek-R1Nature’25纯 RL无 SFT数学 Benchmark 直接拉满首次出现“自我反思”涌现。

3 T1智能体无关 → 改工具数学形式T∗ arg maxT Otool(T)训练时完全不 care智能体是谁训好即可插拔。

4 T2智能体输出 → 改工具数学形式T∗ arg maxT Oagent(Afixed,T)工具更新目标让固定智能体下游任务更准。

总结软件开发R1-Code-InterpreterA1 代码执行反馈计算机使用WebGen-AgentA1 多模态截图奖励药物发现MedResearcher-R1T2 医学检索微调一些思考让大模型“动手”只是第一步让它“越用越顺手”才是终极战场。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

柚子猫糖心logo-柚子猫糖心应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

《天天弄：解锁生活无限可能，让热爱点亮每一天》

核心内容摘要

倾听自然之语：解析身体的独特魅力与生活哲学

、最终输出(A

优化智能体以及独立(T

或受监督(T

优化工具。

5T1工具与智能体无关稠密检索器、HuggingGPTT2工具智能体输出监督S

AgentFlow、自适应记忆一句话记忆A1/A2 改脑子T1/T2 改外挂A1/T1 不用管对方A2/T2 互相看脸色。

5多模态 大规模 GRPO2025 Q4本文综述把以上全部装进 4 个盒子3️⃣ 范式深潜公式 例子 论文链接

1 A1工具执行信号 → 改智能体数学形式A∗ arg maxA Otool(A,T)reward 工具返回的可验证结果代码跑通/检索召回/定理证明步Figure-4 A1 方法时间轴经典案例DeepRetrievalCOLM’25用 PPO 把搜索查询当 actionRecallK 当 reward3× 提升文献检索。

2 A2智能体最终输出 → 改智能体数学形式A∗ arg maxA Oagent(A,T)reward 答案正确性EM、F

人类偏好Figure-5 A2 方法时间轴经典案例DeepSeek-R1Nature’25纯 RL无 SFT数学 Benchmark 直接拉满首次出现“自我反思”涌现。

3 T1智能体无关 → 改工具数学形式T∗ arg maxT Otool(T)训练时完全不 care智能体是谁训好即可插拔。

4 T2智能体输出 → 改工具数学形式T∗ arg maxT Oagent(Afixed,T)工具更新目标 让固定智能体下游任务更准。

总结软件开发R1-Code-InterpreterA1 代码执行反馈计算机使用WebGen-AgentA1 多模态截图奖励药物发现MedResearcher-R1T2 医学检索微调一些思考让大模型“动手”只是第一步让它“越用越顺手”才是终极战场。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​

AI大模型学习路线图还有视频解说全过程AI大模型学习路线​

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

柚子猫糖心logo-柚子猫糖心应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

5多模态大规模 GRPO2025 Q4本文综述把以上全部装进 4 个盒子3️⃣ 范式深潜公式例子论文链接

4 T2智能体输出 → 改工具数学形式T∗ arg maxT Oagent(Afixed,T)工具更新目标让固定智能体下游任务更准。

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

相关优化文章推荐