小太妹最新版本下载安装2024:解锁你的叛逆基因,体验极致自由!

核心内容摘要

旗袍的低语:恩施山水间的师者情深
安徽BBBB嗓与“普通”嗓音的奥秘:一场关于声音魅力的深度探索

angelyeah

文章介绍了一种原位自进化Agent框架它能在推理阶段自动创建工具实现自我进化。

这种Agent无需预先训练或人类干预能边处理任务边创建所需工具并在多个评测中表现优异。

该工具优先策略已开源为解决大模型应用的开放性、可控性和经济性不可能三角提供了新思路有望推动开源AI发展。

Skills刚爆火又有新的Agent范式来搅局了……根本不用Skills也不需要上GitHub翻项目、找工具。

直接把需求丢给Agent它能一边干活一边给自己造装备。

是的完全不需要人类伺候也不用给AI师傅递板手、搬梯子。

工作中遇到啥需要用的装备Agent能自己直接「进化」出来。

以Gemini 3 Pro为后端在地狱级评测HLE*Humanity’s Last Exam*上一骑绝尘仅次于GPT

2-Pro智能体。

在几个高难评测集里比官方未披露方法的含工具使用的结果高了将近20分。

甚至还是One take一口气跑出来的。

这是刚刚新发的一篇论文。

会自己造工具的Agent发现这篇论文还是因为前几天刷到了个demo。

第一眼看上去只是个很普通的交互场景用户有个任务需求丢给了Agent一串Prompt。

找找2023届毕业生中哪些州的ACT考试参与率达到或超过50%且平均综合分数在20分及以上。

并给出这些州中各州学生达到科学基准的比例。

然后Agent开始做分析、规划任务挑选可能会用到的工具。

目前为止一切都还很正常。

但说实话感觉这个demo选的任务不是很好太开放不像是现有工具能一次解决的估计得迭代对话不少次。

嚯果然出问题了工具不够用干不下去。

诶等一下……它怎么开始自己造工具了用错了还能修复有点过于魔幻了啊。

感觉就像动物园里前一秒还躺着剥香蕉的猩猩转头一看一个跟头翻起来开始钻木取火了。

我赶紧把论文翻出来从头到尾扒了一遍不看没事这一看扒出来一堆更让人细思极恐的细节。

这家伙居然靠这种方式在只有一次答题机会的5个评测集中造了128个工具是的白手起家从0开始一个一个捏到了128。

简直是天崩开局。

更惨的是研究人员还一上来就把它扔进了地狱级的Benchmark—HLE*Humanity’s Last Exam*上和基于GPT、Claude、Gemini的这些Agent怪物同台竞争。

不过意料之外的事情发生了。

遇到「打」不过的题目这家伙居然会自己造武器。

一路边打怪边合成装备。

等把HLE两千多道题刷完它已经悄悄攒了97把大宝剑。

这还没完它又背着这九十多把大剑前往了更多样的Benchmark试炼场——DeepSearchQA、FinSearch Comp、XBench。

还是故技重施继续造工具继续打怪升级。

一直刷到将近4000道题时它突然停了不造装备了。

趋势上也有迹可循下面这条曲线前期增速很快后面明显开始出现边际效应递减。

最终工具数量稳定收敛在128个。

像是知道这些已经够用了一样。

△按特定顺序的工具数量随处理的query数统计图这点非常关键。

说明前面的工具不是乱造的而是真的具备可复用性。

所以在积累到128个工具时Agent才会突然发现旧工具已经可以覆盖绝大多数新任务没必要继续扩张。

再看这张图更直观——两种策略下的Agent性能统计对比ZS代表从零工具起手WS代表前面说的按数据集顺序的知识迁移策略。

在WS策略下可以明显看到旧工具越多新工具越少。

甚至在最后两个XBench阶段直接归零。

△不同策略下的Agent性能统计下面这张图更有意思这是这个Agent最爱用的50个工具。

△工具使用频率统计图排名第一的是「网页搜索」断崖式第一。

后面跟着的也都很眼熟内容获取、计算器、文件下载、学术论文搜索、PDF处理……简直和人类的工作习惯一模一样啊都是些通用的基础工具。

而且复用率非常高马太效应极其明显。

这么看来它可能真不是为了造工具而造工具而是真的像人一样在工作过程中沉淀出了一套方法论并且能在不同任务之间迁移。

实验结果也印证了这一点。

这只会自己造工具的Agent在刚刚说的那五项Benchmark上几乎全部一骑绝尘。

全方位碾压基于Gemini 3 Pro的Agent在需要复杂检索与推理的任务中甚至能高出十余个百分点。

原位自进化框架怎么做到的研究团队用了一种全新框架叫原位自进化In-situ Self-evolving Agent。

第一眼没太看懂但隐约感觉是个很性感的概念。

仔细研究了一下发现行业其实一直在做自进化*Self-evolving Agent*但和原位自进化是两件事。

普通自进化大都发生在训练阶段。

高度依赖高质量外部监督信号必须有专家提前选定进化领域一个模型出题或标注好答案再让新模型基于这些标注题目开始最大化目标函数的进化。

这种模式呢往往是基于一个长期目标做优化可以从根本上重塑模型的大脑。

最常见的交付结果就是现在各种模型厂商在做的炼丹发一款新模型上来炸场。

但缺点也很明显。

工程量巨大反馈链路极长因此只能在训练阶段完成。

一旦上线就没有「进化」这一说了。

而原位自进化是一种发生在推理阶段的自进化。

不需要外部监督也没有真值光靠模型推理时的内部反馈以及上一次交互中积累的经验就能蒸馏出可复用的通用技能。

换句话说只要上线模型就能做到「边做边学」。

读到这里肯定有读者要问了这难道就是AI行业一直苦苦追寻的明珠自主学习吗只要训一次后面就能在线上不断习得新能力甚至抵达智能爆炸的奇点实现ASI。

事实上在2025年的云栖大会上阿里CEO吴泳铭就曾指出ASI一定会到达并且此前的一个关键节点就是AI能够自进化。

但值得注意的是行业在谈ASI的这种自进化时更多还是指参数层面。

而原位自进化关注的是另外三件事工作流、记忆、工具。

肯定不是那么「终极」的解决方案但也更现实可行马上就能开始干。

记得几周前参加大模型清华论剑时也听到姚顺雨提过类似观点自主学习其实已经发生了ChatGPT会根据对话过程不断拟合聊天风格Claude的Agent代码库95%都是模型自己写的。

云玦科技的Agent正是采用的这种现在就能落地的「原位自进化」但他们走的路线比较特殊——工具优先。

团队认为工作流路线容易对少数任务过拟合思路一旦固化很难泛化而记忆路线又绕不开LLM天然存在的幻觉问题一旦Token上来偏差会像雪球一样越滚越大。

从第一性原理出发工具才是最符合直觉的进化载体。

首先工具直接决定了Agent的能力边界。

人类基于地球资源制造的一切奇观都是以新的生产工具为基础。

AI也一样积累再多上下文没有铲子也只能坐在金矿上发呆。

其次工具执行天然自带高质量监督信号不需要人类标注。

工作流好不好、记忆靠不靠谱很主观但工具能不能用直接看代码报没报错就行。

这就是所谓的二元判别信号Binary Feedback。

并且通过形式化验证的代码可以最大程度保证安全性放心让Agent去执行API调用、数据库读写这些底层操作。

也不用担心会不会捡了芝麻丢西瓜。

待工具基本收敛后再去补齐工作流和记忆依然来得及。

基于上述思考团队以「工具优先」为理念打造了一支可实现原位自进化的Agent军团。

由四个角色组成——首先是管理者Manager负责统筹大局。

在收到用户需求后它会分析任务、拆解目标并与现有工具库对齐看看有没有现成工具可用。

如果发现能力不足管理者就会指挥工匠Tool Developer现场捏一个工具并立刻在当前上下文中完成配置。

准备就绪后执行者*Executor*会拿这些工具开始处理任务。

如果发现还是搞不定它会暂停执行向管理者汇报。

管理者收到信息后重复前面的流程继续补工具、补能力直到任务能完整跑通为止。

任务完成后交给整合者Integrator对执行历史和中间结果进行整合生成最终回答。

还有最后一步。

对话结束后系统会对整个过程进行复盘更新自己的工具库并将迭代过程蒸馏、沉淀为可复用的方法论。

为了能更好地监测Agent的进化情况团队还引入了个叫「测试时收敛」*Test-Time Convergence*的定量指标作用和传统优化中的Training Loss类似方便直观感受AI的学习情况。

听上去简直是个完美的解决方案但在实际操作中遇到了问题。

如果严格按这条路线来进化流程非常长而且Agent必须一个任务跑完才能进化一次效率实在太低。

于是团队引入了Parallel batch。

别一个一个跑了直接把一批相似任务打包在一块一起丢给Agent。

等着一整个Batch跑完后Agent就能得到一个巨大的经验包一次性喂饱知识库。

至此一只能从零开始自我进化的Agent诞生了。

无需任何事先训练完全依靠工具的自进化来拓展能力还在各种Benchmark上取得媲美SOTA的成绩。

最后再划个重点——这套能媲美SOTA的自进化框架还是开源的。

包括上述实验的所有日志数据评测脚本和结果也都向社区开放。

又是一套可以直接落地部署的开源方案。

又是一项来自中国团队的研究。

只花了15万元实验经费的研究团队这支团队来自云玦科技这是前阿里巴巴集团副总裁彭超创办的AI公司剑指可穿戴通用智能体。

而这篇论文的通讯作者正是云玦科技的联合创始人兼CTO——齐炜祯。

齐炜祯曾任中关村人工智能研究院研究员、中关村学院大模型博士培养方向导师。

现在虽然投身AI创业但仍以兼职身份担任中关村学院的科研共建导师。

他是MTP架构*ProphetNet*的第一作者。

这套多词元预测方法在Meta研究机构FAIR 2024年的高影响力论文 Better Faster Large Language Models via Multi-token Prediction中齐炜祯第一作者研发的ProphetNet被明确视为提出多Token预测架构的原创来源和定义出处。

工业界也在为这项研究背书DeepSeek V

Qwen-3-Next等多款主流大模型当将其作为核心预训练方法。

量子位听说DeepSeek今年年底即将发布的新架构论文依然会引用这项工作Qwen

5大概率也会继续沿用。

齐炜祯本科就读于中科大最早学的是物理后来转向计算机。

本科毕业后他成为中科大与微软亚洲研究院的联培博士生在这里积累了大量偏工程落地、以实际应用为导向的科研经验。

ProphetNet就是其中之一除此之外他还是Visual ChatGPT的核心作者。

该项目开源仅一周就收获了3万Star开创性地定义了以LLM为中心的、调用多模态工具以完成复杂视觉任务的Agent范式。

在推理优化方面他是业界首批提出KV Cache优化*EL-Attention*的学者其核心思想与后来DeepSeek提出的MLA等高效推理部署算法高度一致。

谷歌学术显示齐炜祯的论文引用数已超过3000h-index为17。

这篇论文的一作有两位都是在云玦科技实习期间参与的这项工作。

李昊天哈工大博士生杨释钧中科大硕士生他们在此之前都有多段大厂的实习经历。

还听说个有意思的事。

论文里的所有数据集和实验结果都是One take完全靠同一个架构一口气跑出来的。

这当然说明了这项工作的稳健性。

但事实是就算结果不好也只能认栽。

团队只设定了15万元的研究经费也就只够跑一次完整的推理实验。

也正因为如此他们最开始也没法选择那些依赖大量人类标注、需要反复调参的方案。

只能赌一把。

赌原位自进化赌「工具优先」赌Agent能自己涌现出通用能力。

开源阵营的又一核武器对于To C场景来说AI始终面临着**「开放性、可控性、经济性」的不可能三角**。

LLM虽能处理开放性问题但幻觉始终是硬伤这在金融、医疗等场景下是不可容忍的。

更别说还要时刻面对防不胜防的提示词注入攻击。

成本同样是个大问题。

完全依赖大参数模型的CoT推理在To C服务动辄亿级日调用量的背景下得烧出来个天文数字。

为了解决这个问题垂直Agent应运而生。

提前把流程给设计好工具也是固定的以换取极低的成本和极高的安全性。

但代价也很明显几乎没有自由度Agent只能处理像「预定机票」这样的标准化需求。

可真实世界的人类需求永远是高度发散的。

就拿订机票这件看似没什么技术含量的事来说老板想订去巴黎的机票但他护照快过期了先帮我查一下签证加急流程再决定要不要订。

这还只是一个例子不同长尾场景下需要的新Context千差万别不可能每个都能提前覆盖到。

而一旦用户意图超出了预设流程的边界系统要么瘫痪要么陷入死循环。

想要同时兼顾安全性、低成本又能处理开放性需求唯一的路只能是让Agent在真实工作中学习。

这正是这篇论文给出的答案——「工具优先」的原位自进化。

能力边界的问题可以交给工具集来解决可控性也能通过代码的执行反馈来约束。

甚至工作流也能自进化通过模拟大量长尾场景靠自我博弈与经验蒸馏不断生成新的策略组合探索各种工具组合路径。

而一旦某条路径被反复验证有效它还会被「固化」为静态模板。

遇到用户请求Agent可以优先匹配这些模板如果合适直接填参数执行即可无需再跑一遍昂贵的大模型推理。

关键是这套能「越用越好用」的自进化架构是开源的。

从工业角度来看这个项目还和常规的AI开源项目不太一样。

事实上今天虽然已经有很多开源模型但开源阵营的整体声势**远没达到当年Linux在互联网时代那种级别**。

没办法Linux的飞轮太容易转起来了只要代码不报错通过审核就能合并上线。

所以就算Linux最开始只有1000个社区成员他们每天能贡献的代码量也是相当恐怖的而Linux每一次进化又会吸引更多开发者参与这是典型的网络效应。

AI很难这么做反馈路径太严格对数据质量的要求极高。

这种时候用户增长基本对模型能力没什么贡献最多能反映出个宏观偏好还会持续消耗昂贵的推理算力。

这也是为什么MiniMax CEO以及不少AI创业者都认为AI产品的用户太多未必是好事。

但这个问题并非没有解法。

Skills的爆火已经证明——开源始终是一座金矿只是需要合适的工具去开采。

Skills是开始原位自进化走向Zero Skill或许是下一步。

以DeepSeek为代表的一众开源模型已经在全球范围内铺开了足够大的市场。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

以上全套大模型资料如何领取

麻花星空天美视频-麻花星空天美视频应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123