核心内容摘要
牛娘贝尔:一部超越时空的二次元史诗,唤醒你内心深处的奇幻之梦
在机器人的眼睛LingBot-Depth和机器人的大脑LingBot-VLA之后刚刚蚂蚁灵波又开源了一个大的。
整整三天一波接一波连续开源。
在机器人的眼睛LingBot-Depth和机器人的大脑LingBot-VLA之后刚刚蚂蚁灵波又开源了一个大的通用的世界模型——LingBot-World。
是可以支持在10分钟时长里一直生成、一直交互的那种来感受一下这个feel不难看出视觉效果已经做到了与DeepMind推出的Genie 3不相上下但时间维度上明显是更长。
而且LingBot-World生成的视频不只是能看你也可以深度参与其中。
你可以通过键盘WASD和鼠标实时控制视角的推进、旋转就像在玩一款3A大作一样当然Agent也能够在生成的世界中自主规划并执行动作。
与此同时你也可以用自然语言的方式去实时改变生成世界里的一切。
例如我们“喂”给LingBot-World这样一张初始图只需输入“前面放个烟花”
s、“变成冰雪世界”
sLingBot-World就会从这张图开始按照你的要求生成下去不仅如此LingBot-World一致性这块也是拿捏的非常到位例如下面的科幻场景不论是远景还是近景那个光圈始终保持高度的一致性除了一致性之外记忆力这块也是值得说道说道。
即便画面已经离开了视频中的猫咪一段时间但当镜头转回来LingBot-World还能保持持续的记忆并推断猫咪在屏外的行为。
就仿佛一切都在自然演进、发生一样并且LingBot-World还严格遵循现实世界的物理规律同样是这只猫咪当它撞到沙发的时候就不会出现穿模的情况会显得更加真实如此效果也难怪刚刚发布就已经在国内外的网上掀起了不小的热议真正的突破不在于视觉。
而是它将记忆力、交互和持续性整合到了一起。
但最最最关键的是不同于Genie 3的闭源LingBot-World选择的是完全开源这也成了网友们直呼“Amazing”的重点对开源社区来说是个巨大的胜利。
如此开源对具身智能来说是个巨大进步。
那么LingBot-World到底是如何做到的呢相关论文也已新鲜出炉我们这就来一探究竟。
LingBot-World是如何炼成的从刚才的效果展示和网友讨论中我们不难发现世界模型的三大核心难点即一致性、交互性和实时性。
因为它不像AI视频生成那样视觉上或许能达标但最重要的是要按照严格物理规律持续地生成下去从这个层面上来看更像是一个世界模拟器。
为了做到这一点蚂蚁灵波团队先是在数据层面下了一番功夫。
LingBot-World先是构建了一个混合数据引擎。
一方面他们收集了海量的真实世界视频包括第一人称和第三人称视角另一方面利用虚幻引擎Unreal Engine合成数据通过游戏引擎生成的画面自带完美的相机位姿和物理碰撞信息这是让模型学会因果关系的关键。
其次是分层标注策略不同于传统笼统的视频描述LingBot-World将描述拆解为三个层级叙事描述Narrative Caption讲故事描述视频的整体情节和环境变化。
静态场景描述Scene-Static Caption只描述环境刻意忽略动作。
这让模型学会将背景与运动解耦。
密集时序描述Dense Temporal Caption精确到秒的动作描述比如“第5秒向左转看到了一根柱子”。
数据层面之后就是在模型层面上的创新。
LingBot-World并没有从零开始“硬Train”而是采取了三阶段进化策略。
阶段一是预训练目标是先生成一个世界。
团队基于视频生成模型进行初始化。
这一步不追求交互只为了让模型拥有强大的通用视频生成能力能够画出高保真的纹理和光影。
阶段二是中训练目的是让模型掌握物理规律。
为此团队引入了混合专家模型架构这些专家会负责大到构建全局结构和粗略布局比如山在哪里路通向哪的工作小到填充纹理细节比如水面的波纹叶子的脉络等。
在这个阶段模型被注入了大量的交互数据和游戏逻辑学会了“如果我按下W键画面应该怎么变”。
同时通过渐进式课程学习模型开始涌现出空间记忆能力解决了长视频生成的灾难性遗忘问题。
阶段三是后训练剑指实时性。
由于传统的双向扩散模型太慢团队引入了因果注意力机制和少步蒸馏技术。
将推理过程从双向推演变成了自回归生成在保证画质的前提下将延迟压缩到了1秒以内16fps生成速度真正实现了Real-time Playable。
如此操作下来在与Genie
Mirage 2等顶尖模型的对比过程中性能上便取得了较为明显的优势。
尤其是在长时序一致性和记忆力方面LingBot-World是做到了生成即记住。
蚂蚁灵波的布局一下子清晰了若是单点看LingBot-World这项技术的开源或许你会觉得它可能只是一个好玩、好用的世界模拟器。
但如果结合前两天发布的LingBot-Depth和LingBot-VLA你会发现蚂蚁灵波正在下一盘很大的棋。
因为它不仅仅是三次开源动作这么简单背后更是一套完整的具身智能基础设施。
首先是机器人的眼睛感知即LingBot-Depth。
蚂蚁灵波的LingBot-Depth通过掩码深度建模把传感器缺失的信号视为掩码利用视觉上下文把深度图补全。
结果就是让机器人即使是面对反光、透明的物体也能看清楚真实的世界。
其次是机器人的大脑决策即LingBot-VLA。
在20000小时真实世界数据加持下机器人能够更精准地进行操作并且更具备极强的泛化能力。
不仅在三个不同机器人平台上完成了100项任务成功率碾压同类模型训练吞吐量更是现有框架的
5到
8倍。
最后就是机器人的环境模拟也就是今天新鲜开源的LingBot-World。
因为真实世界训练机器人太贵、太慢也存在一定的安全隐患但在这里它能生成无穷无尽的虚拟环境并且符合物理规律。
不过有一说一这三个动作并非是简单做加法实际上是产生了111 3的化学反应LingBot-VLA可以在LingBot-World生成的虚拟环境中进行千万次推演Sim-to-Real以极低的成本学习物理规律。
LingBot-World生成的视频具有极强的一致性可以直接转化为高质量的3D点云反过来作为训练数据让LingBot-Depth看得更准。
VLA在真实世界的反馈又能优化World模型的物理准度让模拟更逼真。
很明显是围绕具身智能的一个完整闭环。
由此蚂蚁灵波下的这盘大棋也就非常清晰了——把感知LingBot-Depth、决策LingBot-VLA、模拟LingBot-World这三大核心件全部开源试图为整个行业提供一套可复用、标准化的产业基础设施。
但从更长远角度来看或许蚂蚁灵波目前聚焦在具身智能还只是一个主线因为如此复用性同样也可以用于游戏、AIGC和自动驾驶等。
蚂蚁灵波的这盘棋很有可能还将扩局。
One More Thing纵观蚂蚁灵波这三天的开源一个很直接的体感就是真实。
这不为了证明LingBot-World不只是个demo团队还把实施部署的视频给放出来了