核心内容摘要
17c:一场颠覆视界的免费观影盛宴
代码https://github.com/NoviScl/Automated-AI-Researcher论文https://arxiv.org/pdf/
2
14525研究背景想象一下让AI自己提出科研想法、写代码实现、跑GPU实验验证效果然后从结果中学习改进——这听起来像科幻小说斯坦福团队偏偏把它做出来了。
问题痛点在哪当前大模型虽然能生成看似合理的研究想法但实际执行后往往效果拉胯。
就像纸上谈兵说得天花乱坠真刀真枪上场就露馅了。
之前的研究通过人类专家评审发现LLM生成的想法虽然看着靠谱但实际执行效果很差。
核心创新是什么这篇论文提出了执行落地Execution Grounding的思路——不仅让AI提想法还得让它自己把想法变成代码、跑实验、看结果、从反馈中学习。
研究团队搭建了一个完整的自动化执行系统能并行运行数百个GPU实验真正把想法-实现-验证-改进这个闭环跑通了。
实验场景够硬核他们选了两个最烧钱的AI研究方向——大模型预训练和后训练post-training作为AI研究员的考场。
这可不是玩具任务是真金白银烧GPU的实战场景。
成果有多猛在后训练任务上通过执行反馈的进化搜索找到的方法把准确率从48%提升到
6
4%甚至超过了斯坦福CS336研究生课程里最强学生的方案
6
8%。
在预训练任务上把训练时间从
3
9分钟压缩到
1
7分钟。
虽然比人类专家的
1分钟还有差距但已经证明了这条路的可行性。
相关工作AutoML老前辈们自动化机器学习AutoML领域早就在探索类似思路了。
神经架构搜索NAS通过强化学习或搜索算法在预定义的操作空间里找最优网络结构。
最近也有团队尝试让LLM直接提议架构变体并实现验证。
但这些工作通常有两个局限一是搜索空间受限只能在预定义的操作集合里选二是关注点更偏工程调参而非算法创新。
LLM研究助手新秀们AI-Scientist、AI-Researcher这些端到端的研究智能体已经能完成从想法生成到实现的全流程但它们没有深入研究如何从执行反馈中学习提升想法质量。
另一边MLE-Bench、RE-Bench这类基准测试关注的是机器学习工程任务feature engineering、调参为主而本文针对的是更开放的算法研发问题。
代码执行反馈的启发代码生成领域已经验证了执行反馈的价值——模型可以根据代码运行结果改进生成质量。
这篇论文把这个思路迁移到科研想法生成上但挑战更大验证成本更高要跑完整的训练实验反馈信号也更复杂。
核心方法搭建AI研究员的实验室自动化执行系统三大组件协同作战整个系统分三层Implementer代码实现者跑在CPU服务器上接收自然语言想法调用代码执行LLM生成代码diff文件就是和baseline的代码差异。
为了提高成功率它会并行生成10个版本如果某个版本无法应用到原代码就根据报错日志让模型自我修正最多重试2次。
成功后把打好补丁的代码打包上传。
Scheduler调度器中间层定期检查云端新提交的代码包根据实验资源需求准备任务配置一旦有GPU空闲就立刻分配。
Worker执行工人GPU集群上的实际执行者跑完实验后把所有训练日志、性能指标、完整元数据想法内容、代码变更、执行日志都上传到wandb。
如果执行失败会记录详细错误信息反馈给ideator模型。
两大研究环境真刀真枪的考场预训练环境nanoGPT基于nanoGPT speedrun改造任务是在FineWeb数据集上预训练一个124M参数的GPT-2模型。
原始任务是最小化训练时间达到
28验证loss研究团队引入了代理奖励proxy reward 1/loss固定训练时间25分钟直接优化这个代理奖励。
为了防止刷分他们冻结了所有评估超参数并实现了一个token-by-token预测函数防止模型偷看未来token。
后训练环境GRPO基于GRPO算法一种policy gradient方法在MATH数学数据集上微调Qwen
5-Math-
5B模型。
固定训练时间预算用MATH验证集最高准确率作为指标。
验证相关代码单独存放不允许自动执行器修改杜绝作弊可能。
进化搜索探索与利用的平衡术算法设计很巧妙Algorithm 1第一轮Epoch 0采样一批全新想法作为起点后续轮次把想法生成拆分成两部分利用Exploitation从之前轮次里挑出表现超过baseline的好想法让模型生成组合它们优点的变体探索Exploration随机采样之前的想法塞进prompt直到context长度上限让模型生成完全不同的新想法动态调整策略初始是50%探索50%利用随着轮次增加逐渐降低探索率类似模拟退火。
批量大小GRPO环境50个想法/轮nanoGPT环境80个想法/轮。
强化学习用执行结果当奖励信号他们还尝试了更激进的玩法——直接用GRPO算法微调Qwen
B模型让它生成更有效的想法。
实验设置每次prompt只有1个因为每个环境只有1个任务描述超大group sizeGRPO环境256nanoGPT环境128来稳定训练对应256/1024个GPU并行跑实验最大输出8192 tokens包含思考过程想法奖励设计后训练环境直接用验证准确率预训练环境用1/loss执行失败的想法奖励为0实验效果惊喜与挑战并存基准测试执行率惊人自我执行Self-Execution模式同一个模型既提想法又写代码实现。
Claude-
5-Opus和Claude-
5-Sonnet的执行成功率都超过90%即使是采样50个想法best-of-50的性能就能打败baseline。
比如Claude-
5-Sonnet在GRPO上最高达到
6
4%baseline 48%Claude-
5-Opus在nanoGPT上最低loss
237baseline
255。
交叉执行模式不同模型提想法GPT-5统一实现。
执行率有所下降42%-78%但依然可观。
开源模型Kimi-K2-Thinking和Qwen
B也能跑通相当比例的想法并超越baseline。
进化搜索找到了但不总是越搜越强Claude-
5-Opus的胜利在两个环境上都展现出清晰的scaling趋势——搜索轮次越多最佳性能越好。
nanoGPT环境第9轮达到最低loss
1407对应训练时间
1
7分钟baseline
3
9分钟。
Claude-
5-Sonnet的爆发在GRPO环境上第2轮就找到
6
4%准确率的方案发现vanilla policy gradient在这个设置下比标准GRPO更好但之后就饱和了。
GPT-5的平台期和Sonnet类似早期有提升但很快就不涨了。
完爆Best-of-N在相同采样预算下进化搜索从第1轮开始就明显优于best-of-N证明模型确实在利用历史轨迹生成更好的想法。
想法质量分析不只是调参模型超参数想法占比算法想法占比最佳性能来源GPT-5 (GRPO)
0%
9
0%算法想法Claude-
5-Sonnet (GRPO)
4
1%
5
9%超参数想法Claude-
5-Opus (GRPO)
7%
9
3%算法想法三个模型都生成了大量算法创新想法而非单纯调参只有Sonnet的超参数想法占比较高且效果最好。
看几个真实案例详见Table 3Claude-
5-Opus的数学范儿“Residual Ratio Learning with Momentum Bounds” —— 把importance sampling ratio分解成基础分量batch均值的EMA和残差分量只对残差做sigmoid约束允许基础分量捕捉系统性策略漂移。
准确率
6
6%。
Claude-
5-Sonnet的直觉派“Dynamic Mathematical Problem Difficulty Balancing” —— 根据最近表现动态调整问题难度分布表现好时增加难题比例困难时多给基础题。
准确率
6
0%。
GPT-5的分块思路“Token-Level Ratio De-noising via Response Chunks” —— 把response tokens分成C个chunks用chunk平均的log-ratio替代per-token值来降噪。
准确率
5
2%。
意外发现模型在没有任何RAG的情况下多次生成了和近三个月内发表论文高度相似的想法比如Sonnet提出的response diversity rewards和Li et al. (
几乎一致Opus提出的Causal Context Compression对应Allen-Zhu (
的canon layer。
强化学习均值上去了峰值没动好消息平均奖励确实在涨。
GRPO环境从
253升到
34340个epoch后nanoGPT环境从
194升到
24668个epoch后。
坏消息最大奖励在波动没有上升趋势。
对于科研创新来说我们更在乎有没有一个breakthrough idea而不是平均水平提高。
深层原因分析思考链崩溃训练过程中思考(thinking trace)长度急剧下降想法长度基本不变。
分析发现思考越长的想法执行成功率越低可能因为更复杂所以模型学会了偷懒——少想多执行。
多样性崩塌模型收敛到几个简单好用的想法上。
nanoGPT环境里初始51/128个想法是换LayerNorm或做EMA训练结束时这个比例变成119/128。
典型的mode collapse。
探索不足标准GRPO只激励提高平均奖励没有鼓励探索机制。
模型找到几个稳定得分的套路后就不再冒险尝试新想法了。
救场尝试未遂研究团队试过添加历史轨迹、加权长度奖励、相似度惩罚等方法但初期效果不明显就早停了详见附录A.1。
论文
总结这篇论文做了一件很酷的事把AI科研从纸上谈兵变成实战演练。
他们搭建的自动化执行系统能让LLM真正把想法跑通、拿到结果、从反馈中学习。
进化搜索证明这条路走得通——10轮搜索就能找到比baseline强很多的方案甚至超过研究生课程的最佳学生作业。
但也暴露了问题除了Claude-
5-Opus其他模型很快就到瓶颈强化学习更是只能提高平均分最高分反而不涨因为模型学会了抄近路、搞重复。
说白了现在的AI研究员更像个熟练调参工而非算法创新者离真正的科研自主还有距离。
但第一步已经迈出去了剩下的就是怎么让AI不偷懒、多创新的问题了。