首页速度优化匠心逐梦：国产精品88，重新定义中国制造的高端深度

网站优化

公交车上的意外“曝光”：当私密边界在公共空间崩塌，谁在收割这场老师的尴尬？

66m66威九国际：解锁无限潜能，引领成长新纪元

2026-06-08 20:52:59

阅读时长:4分钟

562次阅读

核心内容摘要

岁月沉香：八十奶奶的精彩人生不设限

是的完全不需要人类伺候也不用给AI师傅递板手、搬梯子。

工作中遇到啥需要用的装备Agent能自己直接「进化」出来。

以Gemini 3 Pro为后端在地狱级评测HLE*Humanity’s Last Exam*上一骑绝尘仅次于GPT

2-Pro智能体。

在几个高难评测集里比官方未披露方法的含工具使用的结果高了将近20分。

甚至还是One take一口气跑出来的。

这是刚刚新发的一篇论文。

会自己造工具的Agent发现这篇论文还是因为前几天刷到了个demo。

第一眼看上去只是个很普通的交互场景用户有个任务需求丢给了Agent一串Prompt。

找找2023届毕业生中哪些州的ACT考试参与率达到或超过50%且平均综合分数在20分及以上。

并给出这些州中各州学生达到科学基准的比例。

然后Agent开始做分析、规划任务挑选可能会用到的工具。

目前为止一切都还很正常。

但说实话感觉这个demo选的任务不是很好太开放不像是现有工具能一次解决的估计得迭代对话不少次。

嚯果然出问题了工具不够用干不下去。

诶等一下……它怎么开始自己造工具了用错了还能修复有点过于魔幻了啊。

感觉就像动物园里前一秒还躺着剥香蕉的猩猩转头一看一个跟头翻起来开始钻木取火了。

我赶紧把论文翻出来从头到尾扒了一遍不看没事这一看扒出来一堆更让人细思极恐的细节。

这家伙居然靠这种方式在只有一次答题机会的5个评测集中造了128个工具是的白手起家从0开始一个一个捏到了128。

简直是天崩开局。

更惨的是研究人员还一上来就把它扔进了地狱级的Benchmark—HLE*Humanity’s Last Exam*上和基于GPT、Claude、Gemini的这些Agent怪物同台竞争。

不过意料之外的事情发生了。

遇到「打」不过的题目这家伙居然会自己造武器。

一路边打怪边合成装备。

等把HLE两千多道题刷完它已经悄悄攒了97把大宝剑。

这还没完它又背着这九十多把大剑前往了更多样的Benchmark试炼场——DeepSearchQA、FinSearch Comp、XBench。

还是故技重施继续造工具继续打怪升级。

一直刷到将近4000道题时它突然停了不造装备了。

趋势上也有迹可循下面这条曲线前期增速很快后面明显开始出现边际效应递减。

最终工具数量稳定收敛在128个。

像是知道这些已经够用了一样。

△按特定顺序的工具数量随处理的query数统计图这点非常关键。

说明前面的工具不是乱造的而是真的具备可复用性。

所以在积累到128个工具时Agent才会突然发现旧工具已经可以覆盖绝大多数新任务没必要继续扩张。

再看这张图更直观——两种策略下的Agent性能统计对比ZS代表从零工具起手WS代表前面说的按数据集顺序的知识迁移策略。

在WS策略下可以明显看到旧工具越多新工具越少。

甚至在最后两个XBench阶段直接归零。

△不同策略下的Agent性能统计下面这张图更有意思这是这个Agent最爱用的50个工具。

△工具使用频率统计图排名第一的是「网页搜索」断崖式第一。

后面跟着的也都很眼熟内容获取、计算器、文件下载、学术论文搜索、PDF处理……简直和人类的工作习惯一模一样啊都是些通用的基础工具。

而且复用率非常高马太效应极其明显。

这么看来它可能真不是为了造工具而造工具而是真的像人一样在工作过程中沉淀出了一套方法论并且能在不同任务之间迁移。

实验结果也印证了这一点。

这只会自己造工具的Agent在刚刚说的那五项Benchmark上几乎全部一骑绝尘。

全方位碾压基于Gemini 3 Pro的Agent在需要复杂检索与推理的任务中甚至能高出十余个百分点。

原位自进化框架怎么做到的研究团队用了一种全新框架叫原位自进化In-situ Self-evolving Agent。

第一眼没太看懂但隐约感觉是个很性感的概念。

仔细研究了一下发现行业其实一直在做自进化*Self-evolving Agent*但和原位自进化是两件事。

普通自进化大都发生在训练阶段。

高度依赖高质量外部监督信号必须有专家提前选定进化领域一个模型出题或标注好答案再让新模型基于这些标注题目开始最大化目标函数的进化。

这种模式呢往往是基于一个长期目标做优化可以从根本上重塑模型的大脑。

最常见的交付结果就是现在各种模型厂商在做的炼丹发一款新模型上来炸场。

但缺点也很明显。

工程量巨大反馈链路极长因此只能在训练阶段完成。

一旦上线就没有「进化」这一说了。

而原位自进化是一种发生在推理阶段的自进化。

不需要外部监督也没有真值光靠模型推理时的内部反馈以及上一次交互中积累的经验就能蒸馏出可复用的通用技能。

换句话说只要上线模型就能做到「边做边学」。

读到这里肯定有读者要问了这难道就是AI行业一直苦苦追寻的明珠自主学习吗只要训一次后面就能在线上不断习得新能力甚至抵达智能爆炸的奇点实现ASI。

事实上在2025年的云栖大会上阿里CEO吴泳铭就曾指出ASI一定会到达并且此前的一个关键节点就是AI能够自进化。

但值得注意的是行业在谈ASI的这种自进化时更多还是指参数层面。

而原位自进化关注的是另外三件事工作流、记忆、工具。

肯定不是那么「终极」的解决方案但也更现实可行马上就能开始干。

记得几周前参加大模型清华论剑时也听到姚顺雨提过类似观点自主学习其实已经发生了ChatGPT会根据对话过程不断拟合聊天风格Claude的Agent代码库95%都是模型自己写的。

云玦科技的Agent正是采用的这种现在就能落地的「原位自进化」但他们走的路线比较特殊——工具优先。

团队认为工作流路线容易对少数任务过拟合思路一旦固化很难泛化而记忆路线又绕不开LLM天然存在的幻觉问题一旦Token上来偏差会像雪球一样越滚越大。

从第一性原理出发工具才是最符合直觉的进化载体。

首先工具直接决定了Agent的能力边界。

人类基于地球资源制造的一切奇观都是以新的生产工具为基础。

AI也一样积累再多上下文没有铲子也只能坐在金矿上发呆。

其次工具执行天然自带高质量监督信号不需要人类标注。

工作流好不好、记忆靠不靠谱很主观但工具能不能用直接看代码报没报错就行。

这就是所谓的二元判别信号Binary Feedback。

并且通过形式化验证的代码可以最大程度保证安全性放心让Agent去执行API调用、数据库读写这些底层操作。

也不用担心会不会捡了芝麻丢西瓜。

待工具基本收敛后再去补齐工作流和记忆依然来得及。

基于上述思考团队以「工具优先」为理念打造了一支可实现原位自进化的Agent军团。

由四个角色组成——首先是管理者Manager负责统筹大局。

在收到用户需求后它会分析任务、拆解目标并与现有工具库对齐看看有没有现成工具可用。

如果发现能力不足管理者就会指挥工匠Tool Developer现场捏一个工具并立刻在当前上下文中完成配置。

准备就绪后执行者*Executor*会拿这些工具开始处理任务。

如果发现还是搞不定它会暂停执行向管理者汇报。

管理者收到信息后重复前面的流程继续补工具、补能力直到任务能完整跑通为止。

任务完成后交给整合者Integrator对执行历史和中间结果进行整合生成最终回答。

还有最后一步。

对话结束后系统会对整个过程进行复盘更新自己的工具库并将迭代过程蒸馏、沉淀为可复用的方法论。

为了能更好地监测Agent的进化情况团队还引入了个叫「测试时收敛」*Test-Time Convergence*的定量指标作用和传统优化中的Training Loss类似方便直观感受AI的学习情况。

听上去简直是个完美的解决方案但在实际操作中遇到了问题。

如果严格按这条路线来进化流程非常长而且Agent必须一个任务跑完才能进化一次效率实在太低。

于是团队引入了Parallel batch。

别一个一个跑了直接把一批相似任务打包在一块一起丢给Agent。

等着一整个Batch跑完后Agent就能得到一个巨大的经验包一次性喂饱知识库。

至此一只能从零开始自我进化的Agent诞生了。

无需任何事先训练完全依靠工具的自进化来拓展能力还在各种Benchmark上取得媲美SOTA的成绩。

最后再划个重点——这套能媲美SOTA的自进化框架还是开源的。

包括上述实验的所有日志数据评测脚本和结果也都向社区开放。

又是一套可以直接落地部署的开源方案。

又是一项来自中国团队的研究。

只花了15万元实验经费的研究团队这支团队来自云玦科技这是前阿里巴巴集团副总裁彭超创办的AI公司剑指可穿戴通用智能体。

而这篇论文的通讯作者正是云玦科技的联合创始人兼CTO——齐炜祯。

齐炜祯曾任中关村人工智能研究院研究员、中关村学院大模型博士培养方向导师。

现在虽然投身AI创业但仍以兼职身份担任中关村学院的科研共建导师。

他是MTP架构*ProphetNet*的第一作者。

这套多词元预测方法在Meta研究机构FAIR 2024年的高影响力论文 Better Faster Large Language Models via Multi-token Prediction中齐炜祯第一作者研发的ProphetNet被明确视为提出多Token预测架构的原创来源和定义出处。

工业界也在为这项研究背书DeepSeek V

Qwen-3-Next等多款主流大模型当将其作为核心预训练方法。

量子位听说DeepSeek今年年底即将发布的新架构论文依然会引用这项工作Qwen

5大概率也会继续沿用。

齐炜祯本科就读于中科大最早学的是物理后来转向计算机。

本科毕业后他成为中科大与微软亚洲研究院的联培博士生在这里积累了大量偏工程落地、以实际应用为导向的科研经验。

ProphetNet就是其中之一除此之外他还是Visual ChatGPT的核心作者。

该项目开源仅一周就收获了3万Star开创性地定义了以LLM为中心的、调用多模态工具以完成复杂视觉任务的Agent范式。

在推理优化方面他是业界首批提出KV Cache优化*EL-Attention*的学者其核心思想与后来DeepSeek提出的MLA等高效推理部署算法高度一致。

谷歌学术显示齐炜祯的论文引用数已超过3000h-index为17。

这篇论文的一作有两位都是在云玦科技实习期间参与的这项工作。

李昊天哈工大博士生杨释钧中科大硕士生他们在此之前都有多段大厂的实习经历。

还听说个有意思的事。

论文里的所有数据集和实验结果都是One take完全靠同一个架构一口气跑出来的。

这当然说明了这项工作的稳健性。

但事实是就算结果不好也只能认栽。

团队只设定了15万元的研究经费也就只够跑一次完整的推理实验。

也正因为如此他们最开始也没法选择那些依赖大量人类标注、需要反复调参的方案。

只能赌一把。

赌原位自进化赌「工具优先」赌Agent能自己涌现出通用能力。

开源阵营的又一核武器对于To C场景来说AI始终面临着**「开放性、可控性、经济性」的不可能三角**。

LLM虽能处理开放性问题但幻觉始终是硬伤这在金融、医疗等场景下是不可容忍的。

更别说还要时刻面对防不胜防的提示词注入攻击。

成本同样是个大问题。

完全依赖大参数模型的CoT推理在To C服务动辄亿级日调用量的背景下得烧出来个天文数字。

为了解决这个问题垂直Agent应运而生。

提前把流程给设计好工具也是固定的以换取极低的成本和极高的安全性。

但代价也很明显几乎没有自由度Agent只能处理像「预定机票」这样的标准化需求。

可真实世界的人类需求永远是高度发散的。

就拿订机票这件看似没什么技术含量的事来说老板想订去巴黎的机票但他护照快过期了先帮我查一下签证加急流程再决定要不要订。

这还只是一个例子不同长尾场景下需要的新Context千差万别不可能每个都能提前覆盖到。

而一旦用户意图超出了预设流程的边界系统要么瘫痪要么陷入死循环。

想要同时兼顾安全性、低成本又能处理开放性需求唯一的路只能是让Agent在真实工作中学习。

这正是这篇论文给出的答案——「工具优先」的原位自进化。

能力边界的问题可以交给工具集来解决可控性也能通过代码的执行反馈来约束。

甚至工作流也能自进化通过模拟大量长尾场景靠自我博弈与经验蒸馏不断生成新的策略组合探索各种工具组合路径。

而一旦某条路径被反复验证有效它还会被「固化」为静态模板。

遇到用户请求Agent可以优先匹配这些模板如果合适直接填参数执行即可无需再跑一遍昂贵的大模型推理。

关键是这套能「越用越好用」的自进化架构是开源的。

从工业角度来看这个项目还和常规的AI开源项目不太一样。

事实上今天虽然已经有很多开源模型但开源阵营的整体声势**远没达到当年Linux在互联网时代那种级别**。

没办法Linux的飞轮太容易转起来了只要代码不报错通过审核就能合并上线。

所以就算Linux最开始只有1000个社区成员他们每天能贡献的代码量也是相当恐怖的而Linux每一次进化又会吸引更多开发者参与这是典型的网络效应。

AI很难这么做反馈路径太严格对数据质量的要求极高。

这种时候用户增长基本对模型能力没什么贡献最多能反映出个宏观偏好还会持续消耗昂贵的推理算力。

这也是为什么MiniMax CEO以及不少AI创业者都认为AI产品的用户太多未必是好事。

但这个问题并非没有解法。

Skills的爆火已经证明——开源始终是一座金矿只是需要合适的工具去开采。

Skills是开始原位自进化走向Zero Skill或许是下一步。

以DeepSeek为代表的一众开源模型已经在全球范围内铺开了足够大的市场。

如果能用原位自进化赋予其「越用越好用」的动态优势再去和闭源模型正面掰手腕甚至弯道超车——学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

公交车上的意外“曝光”：当私密边界在公共空间崩塌，谁在收割这场老师的尴尬？

核心内容摘要

岁月沉香：八十奶奶的精彩人生不设限

2-Pro智能体。

Qwen-3-Next等多款主流大模型当将其作为核心预训练方法。

5大概率也会继续沿用。

18岁后高清版免费观看电视剧-18岁后高清版免费观看电视剧应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

公交车上的意外“曝光”：当私密边界在公共空间崩塌，谁在收割这场老师的尴尬？

核心内容摘要

岁月沉香：八十奶奶的精彩人生不设限

2-Pro智能体。

Qwen-3-Next等多款主流大模型当将其作为核心预训练方法。

5大概率也会继续沿用。

18岁后高清版免费观看电视剧-18岁后高清版免费观看电视剧应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐