首页速度优化别让“插逼软件”定义你的数字生活，拥抱真正有价值的智能体验

网站优化

韩剧的“愁”，不只是一场雨，更是心底那抹挥之不去的月光

每日大赛-大赛寸：一场关于热爱与坚持的史诗

2026-06-09 15:24:33

阅读时长:9分钟

562次阅读

核心内容摘要

午夜DJ在线观看：点燃激情，释放灵魂的视听盛宴

CL-bench专门用来测试大模型“从上下文中学习”的能力。

姚顺雨入职腾讯首席AI科学家后参与的首个成果来了。

CL-bench专门用来测试大模型“从上下文中学习”的能力。

这项研究与姚顺雨一贯的研究思路高度契合去年8月他在OpenAI期间发表的博文《下半场》曾提出一个被反复引用的判断AI正处在“中场休息”阶段上半场是训练大于评估下半场将是评估大于训练。

真正重要的不是继续堆模型规模而是让模型在真实任务、真实系统中经得起检验。

CL-bench的评测结果相当扎心当前最强的GPT-

1 (High)任务解决率只有

2

7%。

换句话说即便把解题所需的全部信息都喂给模型它依然在超过四分之三的任务上栽了跟头。

为什么需要上下文学习研究团队在博客中开门见山地指出了一个被忽视的问题今天的前沿模型是顶级的“做题家”能解奥数、能写代码、能通过人类需要苦读数年才能拿下的专业资格考试。

但这能在考场拿满分的学生未必能胜任真实世界的工作。

博客中举了三个人类日常生活的例子开发者扫过从未见过的工具文档就能立刻调试代码玩家拿起新游戏的规则书在实战中边玩边学科学家从复杂的实验日志中筛选数据推导出新的结论。

这些场景中人类并不只依赖多年前学到的死知识而是在实时地从眼前的上下文中学习。

然而今天的语言模型并非如此。

它们主要依赖“参数化知识”即在预训练阶段被压缩进模型权重里的静态记忆在推理时更多是在调用这些封存的内部知识而不是主动从当前输入的新信息中汲取营养。

团队用一句话概括了这个矛盾我们造出了依赖“过去”的参数推理者但世界需要的是能吸收“当下”环境上下文的学习者。

CL-bench500个复杂上下文一个简单但苛刻的要求为了量化这个差距团队构建了CL-bench。

这个基准包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。

设计原则只有一条解决每个任务要求模型必须从上下文中学习到预训练中不存在的新知识并正确应用。

模型需要学习的知识非常广泛包括新的领域知识、不熟悉的规则系统、复杂的产品工作流甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。

具体来说CL-bench涵盖了四种现实世界的上下文学习场景领域知识推理比如虚构的法律体系或创新的金融工具规则系统应用比如新的游戏机制或编程语法程序性任务执行比如工作流和产品手册以及最具挑战性的经验发现与模拟要求模型从数据中归纳出潜在规律。

团队展示了几个任务案例在一部长达

3万字、刚刚生效的新法律下判一起真实纠纷基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序在一套从未见过的编程框架中执行代码在给定技术规格和长期环境政策情景的条件下模拟

关键技术金属的可持续全球供应。

为了确保测试结果反映的是真正的上下文学习能力而非数据泄露或记忆团队采用了无污染设计专家创作完全虚构的内容或修改现实世界的内容创建变体或整合在预训练数据集中代表性极低的小众内容。

论文特别提到在不提供任何上下文的情况下GPT-

1 (High)仅能解决不到1%的任务有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。

平均而言领域专家花费约20小时标注每个上下文以确保任务构建的质量和深度。

十个前沿模型集体翻车即使提供上下文当前模型的表现也好不到哪去。

团队在CL-bench上评估了十个最先进的语言模型结果揭示了当前模型几乎不能从复杂上下文中学习来解决真实场景的问题。

平均而言模型仅解决了

1

2%的任务即便是表现最好的GPT-

1 (High)也仅达到

2

7%。

错误分析显示了几个值得注意的现象。

忽略或误用上下文是导致失败的主要原因许多错误并非源于信息缺失而是源于模型忽视了上下文中的关键细节或错误地应用了它们。

在许多情况下模型只会利用预训练学习到的静态知识来解决任务即使上下文明确定义了新的规则、概念或程序模型也不会学习和利用。

此外从实验数据和环境模拟中进行归纳推理比演绎应用更困难。

演绎任务让模型根据上下文中明确给出的规则和流程进行应用而经验发现和环境模拟类任务则要求归纳推理。

模型在这类任务上的表现明显较差任务解决率通常低于10%且结果波动大。

更高的推理强度通常能提升上下文学习效果但提升有限。

例如GPT-

1在管理类和实验数据类任务上的表现提升约6%但其他模型提升有限甚至可能下降说明单靠更多推理并不足够模型还必须能够正确吸收和组织上下文信息。

研究团队最后写道CL-bench充分解释了语言模型在真实场景中为什么经常出错即使有了上下文工程给模型准备好了所需的上下文模型也会失败。

如果模型不能真正从中学习仅仅提供上下文是不够的。

从“AI下半场”到腾讯首席AI科学家与其继续刷榜不如先搞清楚模型到底还差在哪儿。

CL-bench某种程度上正是姚顺雨关于AI下半场这一判断的具体实践。

这项研究由腾讯混元和复旦大学团队合作完成共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。

致谢部分提到从上下文中学习新知识的想法最早源于Pluto Zhou在2024年提出的设想同时特别感谢姚顺雨提供的鼓励以及多次宝贵建议称“他的全面而细致的审阅和反馈极大地帮助我们进一步提升了这项工作的质量”。

姚顺雨今年1月正式加盟腾讯职位是腾讯总办首席AI科学家向腾讯总裁刘炽平汇报同时兼任AI Infra部、大语言模型部负责人向技术工程事业群总裁卢山汇报。

团队在最后也留下了下一步研究思路起码在当下我们的目标是很明确让上下文学习真正走向现实。

韩剧的“愁”，不只是一场雨，更是心底那抹挥之不去的月光

核心内容摘要

午夜DJ在线观看：点燃激情，释放灵魂的视听盛宴

1 (High)任务解决率只有

7%。

3万字、刚刚生效的新法律下判一起真实纠纷基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序在一套从未见过的编程框架中执行代码在给定技术规格和长期环境政策情景的条件下模拟

关键技术金属的可持续全球供应。

1 (High)仅能解决不到1%的任务有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。

2%的任务即便是表现最好的GPT-

1 (High)也仅达到

7%。

1在管理类和实验数据类任务上的表现提升约6%但其他模型提升有限甚至可能下降说明单靠更多推理并不足够模型还必须能够正确吸收和组织上下文信息。

9.1在线观看nba蘑菇直播(2025已更新)shttp-9.1在线观看nba蘑菇直播(2025已更新应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

韩剧的“愁”，不只是一场雨，更是心底那抹挥之不去的月光

核心内容摘要

午夜DJ在线观看：点燃激情，释放灵魂的视听盛宴

1 (High)任务解决率只有

7%。

3万字、刚刚生效的新法律下判一起真实纠纷基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序在一套从未见过的编程框架中执行代码在给定技术规格和长期环境政策情景的条件下模拟

关键技术金属的可持续全球供应。

1 (High)仅能解决不到1%的任务有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。

2%的任务即便是表现最好的GPT-

1 (High)也仅达到

7%。

1在管理类和实验数据类任务上的表现提升约6%但其他模型提升有限甚至可能下降说明单靠更多推理并不足够模型还必须能够正确吸收和组织上下文信息。

9.1在线观看nba蘑菇直播(2025已更新)shttp-9.1在线观看nba蘑菇直播(2025已更新应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐