绯色之约:八重神子与丘丘人的奇幻情缘

核心内容摘要

千鹤酱的调教日记:解锁心动瞬间,沉浸式恋爱体验
久久久在线:链接世界,点亮精彩瞬间

雏田的浮殇:当斑斓色彩遇上永恒守护,一场漫画的视觉盛宴

Dr.Zero是由Meta和伊利诺伊大学联合开源的AI智能体模型创新性地实现了零数据训练下的自主进化。

其核心设计包括提议者-求解器互促框架、HRPO算法和难度引导机制显著降低了计算成本。

测试显示Dr.Zero在多个数据集上表现优异平均性能比传统监督模型提升

1

1%甚至在复杂问答任务中实现反超为AI领域突破数据依赖提供了新思路。

Meta超级智能实验室和伊利诺伊大学的研究人员联合开源了一个重磅AI智能体模型Dr.Zero。

Dr.Zero可以让搜索智能体在完全没有训练数据的情况下实现了自主进化而且性能一点不输给那些靠大量人工标注数据训练的模型甚至在不少复杂问答测试里还反超了最高能提升

1

1%的性能。

直接打破了AI训练对人工数据的依赖以后在没什么数据的场景里也能轻松搞智能体开发了。

开源地址https://github.com/facebookresearch/drzero论文地址https://arxiv.org/pdf/

2

07055现在搞AI最头疼的就是数据问题。

高质量的数据越来越难搞要么得花大价钱请人标注要么就是根本找不到合适的。

传统的搜索智能体训练更是离不开人工整理的问题集、上下文或者标准答案不仅费钱费力面对开放域里那些复杂的推理需求还经常力不从心。

虽然之前也有自进化的智能体能自己提问题、找答案、学经验但大多只适用于数学这种特定领域。

在这些领域里问题定义得比较窄就算数据多样性不够也能有点提升。

可一到开放域问答就歇菜了要么还是得靠人工设计问题要么就得要大量上下文和标注根本算不上真正的自主进化。

还有个计算效率的坑。

以前用的GRPO算法训练的时候得搞嵌套采样一个问题要生成好几个查询每个查询又要多个响应计算量直接爆炸。

再加上多轮推理的高延迟想用来训练需要复杂工具交互的自进化代理基本不现实。

而Dr.Zero主要靠三个核心设计彻底解决了之前的难题。

整个框架就靠外部搜索引擎当知识来源一开始用同一个基础大模型分别造出提议者和求解器然后让它们俩互相促进内卷一起进步。

提议者和求解器这是整个框架的核心就像一个老师和一个学生只不过老师和学生是同一个起点还能一起成长。

提议者的活是生成各种有挑战性还能验证的问答对它不像传统模型那样只会造简单问题而是有个多轮工具使用的流程能生成复杂的多跳问题。

求解器就负责解决提议者出的题一边做题一边提升自己的搜索和推理能力。

它也能调用搜索引擎思考的时候先在心里过一遍逻辑要是发现自己不懂就精准搜一下补全知识缺口直到能给出明确答案。

它的目标就是把题做对随着提议者出的题越来越难求解器也得不断优化自己的搜索和推理方法不然就跟不上了。

它们俩的优化是交替进行的提议者先出一批题求解器做完之后把结果反馈给提议者提议者根据反馈优化自己的出题思路而提议者出的这些高质量题目又成了求解器的训练素材让求解器继续提升。

为了解决之前GRPO算法计算量大的问题Dr.Zero搞了个HRPO算法也就是跳数分组相对策略优化。

简单说就是把结构相似的问题归为一类一起计算不用再一个个单独处理大大降低了计算成本。

这里的跳数就是推理链的节点数单跳问题就像小学应用题一步就能算出答案多跳问题就像复杂的综合题得好几步推理加搜索才能解决。

HRPO把相同跳数的问题分到一组然后在组内对求解器的奖励分数进行标准化这样就能算出更稳定的优势估计不用再搞嵌套采样。

为了让提议者别出太简单或太离谱的题Dr.Zero设计了一个难度引导的奖励机制。

核心就是看求解器的答题通过率要是求解器全做对了说明题太简单提议者拿不到多少奖励要是全做错了说明题太难也没奖励。

只有当求解器部分做对、部分做错说明题难度适中、有挑战性提议者才能拿到高分。

这样一来提议者就会主动去出那些刚好在求解器能力边缘的题既保证能验证答案又能推着求解器不断进步。

再加上之前说的格式奖励就能确保提议者生成的题不仅有挑战性格式还规范求解器能顺利解析不会因为格式问题卡壳。

为了测试Dr.Zero的性能研究人员使用了Qwen

2.

B和7B两个版本进行测试不管哪个版本Dr.Zero的表现都很能打。

先看3B版本平均EM得分

326比所有少样本基线模型都高得多比简单提示的模型高了192%比IRCoT高80%比Search-o1高28%比RAG高85%。

和监督基线模型比也不落下风比SFT高75%比R1-Instruct高45%和最强的监督基线Search-R1几乎打平就差

001。

单跳数据集上表现更猛NQ数据集得分

397比Search-R1高

2

9%TriviaQA数据集得分

572高

5%PopQA数据集得分

431高

1

4%。

多跳数据集上也大幅领先少样本基线接近甚至超过部分监督基线。

7B版本更厉害平均EM得分

372进一步拉开了和少样本基线的差距。

和监督基线比多个数据集实现反超TriviaQA数据集得分

608比Search-R1高

3%2WikiMQA数据集得分

347高

4%。

多跳数据集上平均性能达到了Search-R1的90%以上尤其是2WikiMQA上的反超充分证明了它在复杂推理任务上的实力。

和现有的零数据模型SQLM、R-Zero比Dr.Zero也是全方位领先。

为了公平起见研究团队还给这两个基线模型加了多轮推理和搜索能力。

就算这样Dr.Zero的平均得分还是比SQLM高

3

9%比R-Zero高

2

3%。

单跳数据集上每个指标都领先多跳数据集上优势更明显平均比R-Zero高

8

3%。

想转型AI不被时代淘汰如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。

2023年人才缺口已超百万凸显培养不足。

随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。

加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通

大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。

大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-

5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。

快速开发一个完整的基于 agent 对话机器人。

掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。

到此为止大概2个月的时间。

你已经成为了一名“AI小子”。

那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。

天道酬勤你越努力就会成为越优秀的自己。

如果你能在15天内完成所有的任务那你堪称天才。

然而如果你能完成

% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

黄金网站软件下载安装免费-黄金网站软件下载安装免费应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123