拾光万象,福运连绵:探寻“扌畐辶”的东方意蕴与现代新生

核心内容摘要

甜心“桃”色诱惑:一条牛仔裤,解锁“糖心vlog”的无限风情
今日大赛-瑜伽裤大赛:不止是运动,更是生活的风尚宣言

舌尖上的甜蜜诱惑:一场味蕾的极致探险

蚂蚁集团旗下的具身智能公司灵波科技开源了两大重磅模型。

具身智能模型最强开源机器人大脑两万小时真机数据开启物理AI缩放定律。

以及强大的世界模型LingBot-World。

LingBot-World将视频生成模型进化成了可交互世界模拟器让AI学会了理解物理规律、空间记忆和实时交互。

LingBot-World通过构建包含真实影像、游戏录屏及虚幻引擎合成数据的混合数据引擎结合分层语义标注策略成功将被动视频流转化为可交互的动态环境。

模型采用三阶段进化策略从基础视频先验到注入物理规律再到通过因果注意力机制和少步蒸馏实现实时推理。

最终在普通GPU上实现了每秒16帧的低延迟交互。

LingBot-World展现出了令人惊叹的涌现记忆能力能够保持分钟级的长程一致性支持文本驱动的环境编辑和具身智能训练为构建下一代无限、可玩、互动的虚拟世界提供了全新的开源范式。

分层语义与混合数据基座文生视频领域取得了显著进展能生成视觉效果逼真的短片但它们本质上更像是造梦者而非模拟器。

这些模型根据统计相关性臆造像素的变换却缺乏对因果关系、物体恒常性以及交互后果的根本理解。

LingBot-World构建了持久、可交互且逻辑一致的虚拟环境是一个实时学习并渲染虚拟世界动态的整体系统。

具备分层语义的可扩展数据引擎、多阶段进化训练流水线以及面向具身智能的多样化应用。

真实世界的视频数据丰富但缺乏精细的控制信息游戏数据包含了精确的动作-反应对但画质和多样性可能受限。

LingBot-World的数据获取策略兼顾了两者。

它收集了大量高质量的第一人称和第三人称视角的视频涵盖人类、动物和车辆的运动。

同时专门采集了严格配对RGB帧与用户控制输入如W、A、S、D按键及相机参数的游戏数据。

为了进一步增强数据的物理准确性团队还开发了一套基于虚幻引擎的合成渲染流水线能够生成无碰撞、随机化但合理的相机轨迹并输出带有精确相机内外参的RGB流。

数据获取之后数据画像Data Profiling组件扮演了标准化的角色。

针对缺乏相机信息的通用视频系统利用先进的姿态估计模型生成相机参数的伪标签。

随后通过视觉语言模型VLM进行语义分析评估视频的视觉质量、运动幅度和场景类型剔除低质量样本。

为了解决原始数据中缺乏细粒度控制描述的问题LingBot-World引入了分层标注策略Hierarchical Captioning。

这一策略为每个视频生成三个不同维度的描述综合叙事描述Comprehensive Narrative Caption将环境特征、相机运动和时间演变编织成一个完整的故事作为全局语义提示。

场景静态描述Scene-Static Caption仅关注静态环境和美学细节刻意忽略相机运动或角色动作。

这种设计对于在世界模型中解耦运动控制与场景生成至关重要让模型明白场景本身是什么而不混淆于视角的移动。

密集时序描述Dense Temporal Caption提供细粒度、时间对齐的特定事件描述支持模型学习随时间变化的动态细节。

确保了每一个用于训练的视频片段有高质量的视觉信息还附带了丰富的结构化文本条件和几何先验为模型理解物理世界的运作方式打下了坚实基础。

注入物理规律与长期记忆LingBot-World并没有从零开始训练一个完美的世界模型而是采用了多阶段的进化策略将视频生成器逐步转化为交互式模拟器。

预训练Pre-Training建立通用的视频先验。

在这个阶段模型专注于学习自然视频序列的无条件分布。

LingBot-World采用了拥有140亿参数的Wan

2图像到视频扩散模型作为基础。

这个强大的底座赋予了模型卓越的时空连贯性和开放域的语义理解能力为后续学习复杂的交互物理规律提供了一张高质量的视觉画布。

中间训练Middle-Training注入世界知识与长时动态。

这是模型发生质变的阶段。

模型被提升为一个双向世界模型Bidirectional World Model开始学习动作控制、时间一致性和特定领域的规则。

为了在不显著增加推理成本的前提下提升性能LingBot-World采用了混合专家Mixture-of-Experts, MoE架构。

MoE包含两个针对扩散过程定制的专家高噪专家High-noise expert在去噪的早期时间步激活专注于建模全局结构和粗略布局。

低噪专家Low-noise expert在后期时间步激活负责打磨精细的空间细节和纹理。

模型总参数量达到280亿但在任何给定的去噪时间步只激活一个专家从而保持了推理计算量和显存消耗与140亿参数模型相当。

为了实现动作可控性LingBot-World引入了一种混合动作表示策略。

它结合了连续的相机旋转使用Plücker嵌入表示和离散的键盘输入W、A、S、D。

这些动作信号通过自适应层归一化AdaLN机制注入到DiTDiffusion Transformer模块中调节特征从而引导视频生成的走向。

为了解决长视频生成中常见的遗忘和漂移问题LingBot-World训练序列的长度从5秒逐步扩展到60秒。

随着视频长度的增加训练更侧重于高噪时间步因为这些时间步对维持全局场景结构至关重要。

通过这种方式模型学会了在长达数分钟的漫游中保持环境的连贯性涌现出了空间记忆能力。

因果架构适配与实时推理蒸馏第二阶段的模型已经具备了强大的物理模拟能力但它依赖于双向注意力机制需要看到未来的信息来生成当前帧且扩散模型的迭代采样速度极慢无法满足实时交互的需求。

后训练Post-Training解决了这一问题。

因果架构适配Causal Architecture Adaptation是实现实时性的关键一步。

团队将双向注意力机制替换为块状因果注意力Block Causal Attention。

在时间块内部token之间保持双向关注以捕捉短程依赖但在块与块之间注意力被严格限制为因果关系即当前块只能关注过去不能看到未来。

这种混合模式既保留了局部的高质量生成又满足了自回归生成的因果约束。

模型初始化时使用了第二阶段中对动态建模能力更强的高噪专家通过混合时间步训练使模型适应这种新的注意力模式。

为了彻底解决计算效率问题LingBot-World实施了少步蒸馏Few-Step Distillation。

传统的扩散模型生成一帧需要数十次去噪迭代而实时应用要求毫秒级响应。

团队采用分布匹配蒸馏DMD结合对抗优化将生成过程压缩到极少的步数。

他们引入了自回归扩展视界训练Self-rollout extended horizon training。

让学生模型在自己生成的序列上进行训练并将其产生的数据存入滚动的KV缓存中。

这种自己教自己的方法迫使模型学会处理自身生成过程中产生的累积误差从而在长时间的自回归生成中保持鲁棒性避免了画面崩坏。

能力涌现与多模态交互应用经过这一系列复杂的进化LingBot-World展现出了超越传统视频生成器的强大能力。

最令人印象深刻的是涌现记忆能力Emergent Memory Capability。

传统的3D引擎通过显式的几何数据存储场景而LingBot-World作为视频模型并没有内置的3D存储模块。

然而实验发现当用户控制相机在场景中移动让某个地标如巨石阵移出视野长达60秒后再次转回视角时该地标依然保持着结构和外观的一致性。

这种对未观测状态的隐式记忆和推理能力证明了模型真正学习到了环境的空间结构而非仅仅是像素的统计规律。

LingBot-World还支持可提示的世界事件Promptable World Events。

用户不仅可以通过按键控制移动还可以通过自然语言实时改变世界的状态。

比如输入冬天或像素艺术整个场景的季节或渲染风格会立即平滑过渡同时保持原有的几何结构和运动动态。

用户甚至可以无中生有在城堡上空召唤烟花或在喷泉中生成游动的鱼模型能确保这些新增元素与环境物理交互的合理性。

此外该模型还能作为动作智能体Action Agent的训练场帮助机器人学习如何在虚拟环境中探索。

利用其生成的高一致性视频序列结合大型3D重建基础模型LingBot-World还能实现从视频到高保真3D点云的重建验证了其生成内容的几何精确性。

LingBot-World在通用领域、生成时长、动态程度和实时性上均表现出色且是唯一全开源的高性能模型。

当然通往完全沉浸式虚拟世界的道路依然漫长。

目前的LingBot-World在记忆稳定性上仍有提升空间长期模拟中偶尔会出现场景漂移其推理成本依然较高依赖企业级GPU且目前的动作空间主要局限于导航缺乏复杂的物体操作能力。

LingBot-World的发布为开源社区在构建世界模型方面迈出了坚实的一步。

随着更多开发者参与进来将共同推动社区在内容创作、游戏开发和机器人学习等领域的创新。

下一代无限、可玩、互动的虚拟未来越来越近了。

参考资料https://technology.robbyant.com/lingbot-worldhttps://github.com/Robbyant/lingbot-worldhttps://huggingface.co/collections/robbyant/lingbot-worldhttps://www.modelscope.cn/collections/Robbyant/LingBot-World

免费下载黄色-免费下载黄色应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123