别惹我,我“一戳就咬人”:那些藏在柔软外表下的硬核自我

核心内容摘要

久热免费视频
臻选匠心,铸就非凡——“精品码产区”的秘密花园

歪歪画:不止是登录,更是你艺术灵感的起点

来源腾讯科技文郭晓静编辑徐青阳世界顶尖的AI模型可以通过医学执照考试可以编写复杂代码甚至能在数学竞赛中击败人类专家但是却在一款儿童游戏中《宝可梦》屡屡受挫。

这场引人瞩目的尝试始于2025年2月当时Anthropic的一名研究人员推出了“Claude玩《宝可梦红》”的Twitch直播以此配合Claude Sonnet

7的发布。

2000名观众涌入直播间。

在公共聊天区观众们为Claude出谋划策、加油打气使这场直播逐渐演变为一场围绕AI能力展开的公开观察。

Sonet

7只能说是“会玩”《宝可梦》了但“会玩”不等于“能赢”。

它会在关键节点卡住数十小时还会做出连儿童玩家都不会犯的低级错误。

这不是Claude第一次尝试。

早期版本的表现更加灾难有的在地图中毫无目标地游荡有的陷入无限循环更多的甚至无法走出新手村。

即便是能力显著提升的Claude Opus

5仍会出现令人费解的失误。

有一次它在“道馆外“绕圈整整四天却始终未能进入原因仅仅是没意识到需要砍倒挡在路口的一棵树。

一款儿童游戏为何成了AI的滑铁卢?因为《宝可梦》要求的恰恰是当今AI最缺乏的能力在没有明确指令的开放世界中持续推理、记忆数小时前的决策、理解隐含的因果关系、在数百个可能的行动中做出长期规划。

这些事情对8岁孩子来说轻而易举的事对标榜超越人类的AI模型却是不可逾越的鸿沟。

01工具集差距决定成败相比之下谷歌的Gemini

5 Pro在2025年5月成功通关了一款难度相当的《宝可梦》游戏。

谷歌首席执行官桑达尔·皮查伊Sundar Pichai甚至在公开场合半开玩笑地表示公司在打造“人工宝可梦智能”方面迈出了一步。

然而这一结果并不能简单归因于Gemini模型本身更“聪明”。

关键差异在于模型所使用的工具集。

负责运营Gemini《宝可梦》直播的独立开发者乔尔·张Joel Zhang将工具集比喻为一套“钢铁侠装甲”AI并非赤手空拳进入游戏而是被置于一个可调用多种外部能力的系统中。

Gemini的工具集提供了更多支持例如将游戏画面转写为文本从而弥补模型在视觉理解上的弱点并提供定制化的解谜与路径规划工具。

相比之下Claude所使用的工具集更为简约它的尝试也更直接地反映出模型自身在感知、推理与执行上的真实能力。

在日常任务中这类差异并不明显。

当用户向聊天机器人提出需联网查询的请求时模型同样会自动调用搜索工具。

但在《宝可梦》这类长期任务中工具集的差异被放大至足以决定成败的程度。

02回合制暴露AI的“长期记忆”短板由于《宝可梦》采用严格的回合制且无需即时反应它成为了测试 AI 的绝佳“练兵场“。

AI 在每一步操作中只需结合当前画面、目标提示与可选操作进行推理即可输出‘按A键’这类明确的指令。

这似乎正是大语言模型最擅长的交互形式。

症结恰恰在于时间维度的“断层”。

尽管 Claude Opus

5 已累计运行超 500 小时、执行约 17 万步但受限于每一步操作后的重新初始化模型只能在极窄的上下文窗口中寻找线索。

这种机制让它更像是一个靠便利贴维持认知的失忆者在碎片化的信息中循环往复始终无法像真正的人类玩家那样实现从量变到质变的经验跨越。

在国际象棋和围棋等领域AI系统早已超越人类但这些系统是为特定任务高度定制的。

相比之下Gemini、Claude和GPT作为通用模型在考试、编程竞赛中频频击败人类却在一款儿童向游戏中屡屡受挫。

这种反差本身便极具启示性。

在乔尔·张看来AI面临的核心挑战在于无法在长时间跨度内持续执行单一明确目标。

“如果你希望智能体完成真正的工作它不能忘记五分钟前自己做了什么”他指出。

而这种能力正是实现认知劳动自动化不可或缺的前提。

独立研究者彼得·惠登Peter Whidden给出了更直观的描述。

他曾开源一个基于传统AI的《宝可梦》算法。

“AI对《宝可梦》几乎无所不知”他表示“它在海量人类数据上训练清楚知道正确答案。

但一到执行阶段就显得笨拙不堪。

”游戏中这种“知道却做不到”的断层被不断放大模型可能知道需寻找某道具却无法在二维地图中稳定定位知道应与NPC对话却在像素级移动中反复失败。

03能力演进背后未跨越的“本能”鸿沟尽管如此AI的进步仍清晰可见。

Claude Opus

5在自我记录和视觉理解上明显优于前代得以在游戏中推进更远。

Gemini 3 Pro在通关《宝可梦蓝》后又完成了难度更高的《宝可梦水晶》且全程未输一场战斗。

这是Gemini

5 Pro从未实现的。

与此同时Anthropic推出的Claude Code工具集允许模型编写并运行自有代码已被用于《过山车大亨》等复古游戏据称能成功管理虚拟主题公园。

这些案例揭示了一个不直观的现实配备合适工具集的AI可能在软件开发、会计、法律分析等知识工作中展现极高效率即便它们仍难以应对需要实时反应的任务。

《宝可梦》实验还揭示另一耐人寻味的现象在人类数据上训练的模型会表现出近似人类的行为特征。

在Gemini

5 Pro的技术报告中谷歌指出当系统模拟“恐慌状态”如宝可梦即将昏厥时模型的推理质量会显著下降。

而当Gemini 3 Pro最终通关《宝可梦蓝》时它为自己留下了一段非任务必需的备注“为了诗意地结束我要回到最初的家与母亲进行最后一次对话让角色退休。

”在乔尔·张看来这一行为出乎意料还带有某种人类式的情感投射。

04AI难以逾越的“数字长征”远不止《宝可梦》《宝可梦》并非孤例。

在追求通用人工智能AGI的道路上开发者发现即便AI能在司法考试中名列前茅在面对以下几类复杂游戏时依然面临着难以逾越的“滑铁卢”。

《NetHack》规则的深渊这款80年代的地牢游戏是AI研究界的“噩梦”。

它的随机性极强且有“永久死亡”机制。

Facebook AI Research发现即便模型能写代码但在需要常识逻辑和长期规划的《NetHack》面前表现甚至远逊于人类初学者。

《我的世界》消失的目标感虽然AI已能制作木镐甚至挖掘钻石但独立“击败末影龙”仍是幻想。

在开放世界里AI经常会在长达数十小时的资源收集过程中“忘记”初衷或在复杂的导航中彻底迷路。

《星际争霸 II》通用性与专业的断层尽管定制化模型曾击败职业选手但若让Claude或Gemini直接通过视觉指令接管它们便会瞬间崩盘。

在处理“战争迷雾”的不确定性以及平衡微操与宏观建设方面通用模型依然力不从心。

《过山车大亨》微观与宏观的失衡管理乐园需要追踪数千名游客的状态。

即便具备初步管理能力的Claude Code在处理大规模财务崩溃或突发事故时也极易疲态。

任何一次推理断层都会导致乐园破产。

《艾尔登法环》与《只狼》物理反馈的鸿沟这类强动作反馈游戏对AI极不友好。

目前的视觉解析延迟意味着当AI还在“思考”Boss动作时角色往往已经阵亡。

毫秒级的反应要求构成了模型交互逻辑的天然上限。

05为何《宝可梦》成为AI试金石如今《宝可梦》正逐渐成为AI评估领域中一种非正式却极具说服力的测试基准。

Anthropic、OpenAI和谷歌的模型在Twitch上的相关直播累计吸引数十万条评论。

谷歌在技术报告中详细记录Gemini的游戏进展皮查伊在I/O开发者大会上公开提及此项成果。

Anthropic甚至在行业会议中设立“Claude玩宝可梦”展示区。

“我们是一群超级技术爱好者”Anthropic应用AI负责人大卫·赫尔希David Hershey坦言。

但他强调这不仅是娱乐。

与一次性问答式的传统基准不同《宝可梦》能在极长时间内持续追踪模型的推理、决策与目标推进过程这更接近现实世界中人类希望AI执行的复杂任务。

截至目前AI在《宝可梦》中的挑战仍在继续。

但正是这些反复出现的困境清晰勾勒出通用人工智能尚未跨越的能力边界。

特约编译无忌对本文亦有贡献阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。

目前拥有超过8000篇重要资料。

每周更新不少于100篇世界范围最新研究资料。

欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

kpdz153cn登录入口-kpdz153cn登录入口应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123