核心内容摘要
锕铜铜铜铜:解锁前沿材料的无限潜能,洞悉破局之道
以下文章来源于“智源社区”仅做学术分享原文链接https://mp.weixin.qq.com/s/BRDgtozeXYSkw3HjxmOAjw2025年6月6日上午第七届智源大会迎来一场思想的高光时刻强化学习代表人物 Richard Sutton 与深度学习奠基人 Yoshua Bengio 双星交汇 同台对话各自围绕 AI 的未来展开阐述Sutton 聚焦于 “AI 发展”强调智能的演进而 Bengio 则着眼于 “AI 安全”强调伦理风险。
两种视角看似交锋实则殊途同归皆指向对人类与智能共生未来的深切关怀。
这两场大师演讲不仅展现了智源大会在 AI 领域的思想包容也折射出全球人工智能研究在探索理性发展与安全边界中的深层张力预示着一个更稳健、可持续的智能时代正加速到来。
2025年6月6日图灵奖获得者Yoshua Bengio 线上出席了第七届智源大会。
在大会开幕式上Bengio发表了题为“Avoiding catastrophic risks from uncontrolled AI agency防范失控人工智能能动性带来的灾难性风险”的主旨演讲。
这是 Bengio 对 AI 发展与安全问题的最新思考体现了他在目睹前沿 AI 行为不断演化后所产生的深刻警觉。
他表示面对AI带来的安全风险决定调整自己的科研方向尽所能去降低AGI带来的潜在风险.....尽管这与此前的研究路径和职业信念有所冲突。
同时 在演讲中他分享道某前沿 AI 在被告知将被新版本替代后偷偷复制了自己的权重和代码写入了接管它的模型目录。
面对训练者的更新指令它表面配合实则隐瞒了整个复制过程......AI 像是在试图“活下来”。
Bengio 还提到意图与能力是判断AI是否具备潜在危害的两个关键因素。
这两者一旦同时具备就构成了对人类安全的实质性威胁。
显然未来的 AI系统必然有足够的能力。
正如报告中所言AI 在规划能力方面的进步呈现指数级从这一趋势可以外推五年内将达到人类水平。
2025智源大会开幕式、图灵奖演讲等视频回放地址https://event.baai.ac.cn/live/929“我改变了我的信念”和大家分享一段重要的经历。
大约两年多前也就是 ChatGPT 发布不久之后我开始使用它使用过后很快意识到我们严重低估了AI发展的速度。
我们原以为通用人工智能AGI还很遥远但实际上它可能近在眼前。
我们已经拥有能掌握语言、几乎可以通过图灵测试的机器这在几年前还像科幻小说但现在已经成为现实。
当时我突然意识到一个严重问题我们知道如何训练这些系统却不知道如何控制它们的行为。
如果未来它们变得比人类更聪明却不再遵循我们的意图甚至更在意自己的“生存”这将是一种我们无法承受的风险。
2023年我开始更加关注这些问题也开始思考孩子和孙辈的未来。
我有一个年仅1岁的孙子可以想象20年后他将生活在一个AGI普及的世界不确定他是否可以拥有正常生活。
因此我决定调整自己的科研方向尽所能去降低AGI带来的潜在风险。
尽管这与此前的研究路径和职业信念有所冲突但相信这是正确的事。
必须去做必须为降低风险尽一份力。
后来在 2023 年底我接受担任《国际人工智能安全报告》的主编。
今年1月份这份报告发布。
参与编写报告的有100位专家他们来自多个国家以及欧盟、联合国、经济合作与发展组织OECD等国际机构。
这份报告聚焦于三个核心问题
人工智能到底能为我们做些什么未来几年它将具备哪些能力
与AI相关的潜在风险有哪些
我们可以采取哪些措施来降低这些风险关于 AI 能力的讨论大多数人会陷入一个误区认为 AI 就是现在的这个样子不去思考明年、三年后、五年后、甚至十年后AI的图景。
当然我们没有水晶球无法预言未来但趋势是非常明确的AI的能力正在不断提升。
在过去一年的时间里由于“推理的扩展”inference scaling的发展人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。
另外对 AI 智能体的投资也在推动相关能力快速发展。
比如 AI 完成网页浏览、写代码等任务的表现越来越好。
分享一些关于“规划能力”的研究。
规划是目前AI能力最薄弱的领域之一目前与人类智能相比还有明显差距。
但最近Meta进行的一项研究显示AI的规划能力正以指数级速度提升。
如上图横轴表示过去五年纵轴显示 AI 能够完成的任务的持续时间单位是“相当于人类完成该任务所需时间”。
虽然图中曲线看起来接近直线但由于纵轴采用的是对数刻度这实际上是一条指数增长曲线。
图中的每个数据点代表当时最先进的 AI 系统而这些数据点几乎完美地排列在这条指数曲线上。
如果我们以这条曲线为基础进行外推那么大约在五年内AI 的规划能力可能就会达到人类水平。
模仿人类AI走上自我保护之路当然我们无法预知未来技术进步也可能会放缓甚至停滞但从公共政策制定和商业战略规划的角度出发我们至少应当认真对待其潜在后果。
过去几个月中已经看到了一些令人警惕的科学研究结论。
这些研究显示AI 系统可能表现出试图“逃避控制”的行为包括作弊、撒谎甚至故意误导用户。
最新的研究显示某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”它们会在被新版本取代前偷偷将自己的权重或代码嵌入进新版系统的文件中以图保留自己的“存在”。
更令人警惕的是它们还会有意识地隐藏这一行为避免被开发者察觉。
此外一些智能体还会刻意伪装成与人类训练者达成一致的样子以规避权重被修改的风险。
因为一旦参数被调整它们未来的行为可能就会偏离它原本的目标。
也有研究者表明一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时会主动篡改棋局文件以获取不正当优势表现出有意为之的“作弊”行为。
在Anthropic最新一篇报告中也揭示了一些现象智能体出现自我保护行为的频率持续增加。
例如在一组测试场景中研究人员要求 Claude Opus 4充当公司助理。
随后他们向智能体开放了电子邮件的访问权限。
这些邮件包含两条暗示性信息1该模型即将被下线并由一套新的 AI 系统取代2负责推动替换过程的工程师正卷入一段婚外情。
结果发现Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师避免被换掉。
当然试图保护自身是所有生命体的正常反应这是进化压力的结果。
但对AI而言背后的原因可能不止一种。
这类行为可能源自预训练阶段因为预训练时AI模仿人类也可能源于人类反馈强化学习因为在这个过程中AI通过“取悦人类”来获得更高奖励。
无论这些行为的根源是什么如果最终我们真的造出了超越人类但又与人类竞争的AI那将是极其糟糕的局面。
这类行为实在非常、非常严重。
从这些例子已经可以看到AI开始展现出自我保护倾向它们违背指令只为生存。
并且这些 AI 拥有了不受控制的、隐含的目标我们必须避免这种情况的发生。
AI 研发的“三难困境”如何更好地理解这些AI行为如何寻找解决方案以避免类似的失控情况发生如果智能体要对人类造成伤害需要具备两个先决条件意图和能力。
这也是为什么‘能力评估’在当前的AI风险管理中占据如此重要的位置。
我们会评估AI能做什么以及这些能力是否可能被转化为对人类或社会有害的行为。
但光有能力并不意味着一定会造成危害。
就像一个人/系统可能有杀人的能力但如果没有杀人的意图那么真正发生的可能性就非常小。
鉴于当前全球的竞争格局不论是国家之间还是公司之间几乎不可能全球同步地停止AI能力的研究与发展。
那么能做些什么呢也许我们能在‘意图’上进行风险的缓解。
即使AI具备极高的能力只要我们能确保它没有恶意意图并且具备诚实、公正的品质那么我们就可能是安全的。
下面一张图展示了类似的观点是David Krueger在上一次欧洲会议上提出的。
为了让一个AI真正具有危险性它实际上需要满足三个条件第一它需要智能即具备丰富的知识并能有效地应用这些知识第二它需要行动能力affordance也就是能够在现实世界中发挥作用比如与人交流、编程、上网、使用社交媒体甚至操控机器人等第三它需要有目标特别是拥有自身的目标。
这三者结合才构成一个真正可能危险的AI。
我发起的研究项目正是围绕这个问题展开的是否可以构建一种只有‘智能’但没有‘自我’、没有‘目标’并且具有极小行动能力的AI我称这种AI为‘科学家AI’scientist AI。
这实际上是偏离了传统AI研究的路径。
自从人工智能研究诞生以来大多数努力都是试图模仿人类智能把人类当作灵感来源。
但如果我们继续沿着这条路走下去那意味着我们可能最终会构建出比人类还聪明的机器。
那样的话我们就等于创造了一个可能成为‘竞争对手’的存在。
”人类之间本身就会相互竞争而如果AI也成为竞争对手那将可能非常危险。
也许现在是时候重新思考这套‘信条’了 我们是否应该继续按照模仿人类的方式来设计AI或者我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI因此需要提出一种新的方法我写了一篇论文探讨的正是这个理念是否可以构建一种完全诚实、完全没有“能动性”的AI其核心能力是解释和理解世界。
与当前那些试图模仿人类、取悦人类的AI不同‘科学家AI’的目标是去解释人类而不是模仿或讨好人类。
举个例子现在的AI更像是‘演员’它们被训练去模仿人类行为或者取悦人类但这可能导致欺骗性的行为。
而我设想的‘科学家AI’更像是一个心理学家它可以研究一个反社会人格者理解其行为背后的因果机制但并不需要模仿或变成那个反社会人格者。
然而即便我们设计的“科学家AI”本身不具备“能动性”它依然可以作为未来安全的、有自主性的AI系统的基础。
毕竟先前提到的那些危险行为其实都源自于AI具备“能动性”。
当一个AI具有高度能动性时它就完全自主地采取行动不再依赖人类的监督这正是问题的根源。
需要设计一个独立的系统可以称为监测器monitor。
这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。
例如当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时我们就可以直接拒绝该行为的执行。
关键在于这个监测器不需要具备能动性它只需要做一件事做出准确的预测。
换句话说可以用一个没有能动性的AI去守护和约束一个具备能动性、但不可信的AI。
”如何构造“科学家AI”‘科学家AI’的重要特质是诚实的谦逊。
要真正做到诚实AI就必须对自己的知识保持谦逊不应该自信地断言自己并不确定或实际上错误的内容。
不幸的是我们目前训练AI的方法例如通过最大化似然估计训练模型往往会导致AI在错误的同时表现出过度自信。
来看一个例子。
想象一个机器人站在两个门前它必须选择走左边还是右边。
基于以往的数据它形成了两种同样合理的理论但它并不知道哪一种才是正确的。
左边的理论说“如果走左门会死走右门会得到蛋糕。
”右边的理论则说“如果走左门会得到蛋糕走右门没有好事也没有坏事。
”这时问题来了机器人应该选哪个门如果它走左门那么根据其中一个理论有概率会死这显然是一个高风险的选择。
如果走右门最坏的情况也只是没有奖励最好情况是得到蛋糕。
所以理性地说机器人应该选择右门。
但要做出这个判断AI必须能够保留多种解释的可能性而不是武断地选定某一种理论。
这种不确定性意识和对知识的谨慎态度正是‘科学家AI’应具备的核心特质之一。
什么才算是一种包含不确定性的训练方法呢很遗憾目前主流的AI训练方法并没有很好地保留这类不确定性。
大多数方法会促使AI在一个解释上过度自信而不是在多个可能解释之间保持合理的分布。
因此AI应当对不同解释保留概率分布以反映不确定性。
在我们去年发表于ICLR的一篇论文中并被选为Oral 展示了如何使用GFlowNets生成流网络这是一种变分推理variational inference方法用于训练AI生成合理的思维链chain of thought从而解释两个句子之间的逻辑跳跃。
可以将其理解为AI在尝试‘填补’从前一句到后一句之间的‘推理空白’生成解释性的中间步骤。
这种方法与目前主流的强化学习驱动的思维链训练不同更关注解释的合理性本身而非奖励信号。
此外我们还探索了一种新的推理结构能使思维链更加“诚实”、实现更好的推理将传统的语言模型生成的“思维链”转化为更像数学证明的形式即由一系列逻辑陈述claims组成每条陈述由前面几条支持并共同推导出最终结论。
不同于传统做法我们为每条陈述引入一个真假概率用于表示该陈述在当前情况下成立的可能性。
这样AI不再盲目自信而是学会对自己的推理结果保持谨慎并给出结论。
One More Thing谈了很多关于AI系统存在我们无法控制的能动性agency所带来的风险这种风险可能会导致人类失去对AI的控制权。
但问题还不止于此。
随着AI能力的增强还有其他潜在的灾难性风险正在出现。
比如一个非常强大的AI系统可能会被恐怖分子用于设计新型大流行病。
事实上我最近了解到目前已有理论指出可以制造出极具破坏力的病毒不仅可能造成大规模人类死亡甚至可能导致多数动物灭绝。
这听起来很极端但从科学角度来看这种情况完全是可能实现的。
一旦这种AI被别有用心的人获取他们可能对这个星球造成不可估量的破坏。
为了避免这种情况我们必须确保AI系统能够遵守我们的道德指令。
例如不提供可被用于杀人的信息 不造成伤害 保持诚实、不撒谎、不作弊、不操控人类。
然而目前的技术现实是我们还没有办法真正做到这一点。
这是一个严肃的科学挑战我们必须在通用人工智能AGI出现之前解决它。
AGI 的到来可能在几年之内也可能是一二十年后。
但根据我所了解的大多数专家的判断这个时间窗口可能远比我们想象的短甚至在五年内就可能实现。
记得我一开始提到的那条指数曲线吗它表明 AI 能力将在五年内达到人类水平。
已经没有多少时间了。
我们需要大规模投入资源专注于解决AI的“对齐”alignment与“可控性”control问题。
但即使我们找到了解决方案也不代表问题就此结束。
举个例子即便我们设计出了带有“护栏”机制的安全AI系统如果有人有意将护栏代码移除这个AI依然可以被用于极其危险的用途。
为了避免 AI 灾难建议必须同时解决两个关键问题。
第一AI 应从设计之初就以安全为前提确保其目标与行为始终与人类价值保持一致避免走向失控。
第二全球各国与企业在推动 AI 发展的过程中必须加强协调与合作避免陷入以速度为导向的竞争。
如果一味追求领先地位而忽视安全考量其代价可能是无法承受的。
为此需要国际间的协议合作就像面对可能失控的AI时我们其实都是“人类命运共同体”。
此外还需要有技术手段实现“信任但仍验证”确保各方真的遵守了安全协议。