核心内容摘要
肉蔻之香2意大利版:一曲缠绵的感官协奏,揭秘镜头下的灵魂之舞
noteCL-bench 围绕一个简单但严格的设计原则构建每个任务都必须要求从 context 中学习新知识。
CL-bench 中的每个 context 都是完全自包含Self-contained的。
解决任务所需的所有信息都显式地提供在 context 本身之中不需要外部检索也不允许隐藏假设。
CL-bench 揭示了一个不能被忽视的现象当今的前沿语言模型还仍然不会利用 context 从 context 中学习。
文章目录note
CL-bench覆盖的内容
CL-bench设计原则
CL-bench评估结果Reference
CL-bench覆盖的内容
CL-bench 涵盖了四种广泛的现实世界 context 学习场景领域知识推理 context 中提供特定的领域知识例如 虚构的法律体系、创新的金融工具或小众专业知识。
模型需要利用这些知识来推理并解决具体问题。
规则系统应用 context 中提供新定义的正式系统例如 新的游戏机制、数学形式体系、编程语法或技术标准。
模型必须理解并应用这些规则来执行任务。
程序性任务执行 context 中提供复杂的过程系统例如 工作流、产品手册和操作指南。
模型必须理解并应用这些程序性信息来完成任务。
经验发现与模拟 context 中提供复杂系统内的实验数据、观测记录或模拟环境。
与前几类涉及演绎推理不同这一类专注于归纳推理也是最具挑战性的。
模型必须从数据中发现潜在的定律或结论并应用它们来解决任务。
CL-bench设计原则CL-bench 围绕一个简单但严格的设计原则构建每个任务都必须要求从 context 中学习新知识。
CL-bench 中的每个 context 都是完全自包含Self-contained的。
解决任务所需的所有信息都显式地提供在 context 本身之中不需要外部检索也不允许隐藏假设。
CL-bench评估结果结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。
实验也解释了一些更有趣的发现。
平均而言模型仅解决了
1
2% 的任务。
即便是表现最好的模型 GPT-
1 (High)也仅达到了
2
7%。
换句话说尽管 context 中拥有解决每个任务所需的全部信息模型在绝大多数任务上都失败了。
这表明当前最前沿的模型几乎不会从 context 中学习。
Reference[1] https://hy.tencent.com/research/100025?langVersionzh