核心内容摘要
FLUX.1-dev-fp8-dit文生图+SDXL_Prompt风格企业落地案例:设计团队提效50%实践
本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作VLA模型π₀ 和 π₀.5从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
引言机器人领域正在经历一场由基础模型驱动的革命。
正如大语言模型LLM改变了自然语言处理领域视觉-语言-动作模型Vision-Language-Action, VLA正在改变机器人学习的范式。
Physical Intelligence 公司先后发布了两代 VLA 模型π₀2024年10月首个通用机器人策略π₀.52025年4月具备开放世界泛化能力的 VLA本文将深入分析这两个模型的核心差异帮助读者理解 VLA 技术的演进方向。
π₀首个通用机器人策略
1 设计目标π₀ 的核心目标是实现灵巧操作Dexterity和跨具身控制Cross-Embodiment。
“…perform tasks that no prior robot learning system has done successfully, such as folding laundry or assembling a cardboard box”—— π₀ 官方博客π₀ 追求的是让机器人完成前所未有的复杂技能折叠衣物从烘干机取出、整理、折叠成堆组装纸板箱清理餐桌装袋杂货
2 模型架构π₀ 采用双专家并行 共享注意力的架构设计┌─────────────────────────────────────────────────────────────────────┐ │ π₀ 架构 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 输入 │ │ ├── 图像 ──► SigLIP 视觉编码器 │ │ ├── 语言 ──► Tokenizer │ │ └── 状态 ──► MLP 编码 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM Expert (PaliGemma 3B) │ │ │ │ ↕ │ │ │ │ 逐层共享注意力机制 │ │ │ │ ↕ │ │ │ │ Action Expert (Gemma 300M) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ 输出: 连续动作通过 Flow Matching 生成 │ │ │ └─────────────────────────────────────────────────────────────────────┘关键设计特点双专家架构VLM Expert 负责视觉-语言理解Action Expert 负责动作生成逐层共享注意力两个专家在每一层通过共享自注意力机制交互Flow Matching使用流匹配一种扩散模型变体生成连续动作非对称信息流Action tokens 可以注意到 VLM tokens但 VLM tokens 被遮蔽保护预训练知识
3 训练数据π₀ 的训练数据包括Open X-Embodiment开源跨具身机器人数据集VLM 预训练基于 PaliGemma 的互联网规模预训练π Dataset来自 8 种不同机器人的灵巧任务数据
4 推理流程输入: 图像 语言指令 机器人状态 噪声 │ ▼ ┌──────────────────┐ │ VLM 前向传播 │ ← 只运行 1 次生成 KV Cache └────────┬─────────┘ │ ┌────────▼─────────┐ │ Flow Matching │ ← 迭代 10 次欧拉积分 │ Action Expert │ └────────┬─────────┘ │ ▼ 输出: 50 步动作序列Action Chunk
π₀.5开放世界泛化的 VLA
1 设计目标π₀.5 的核心目标是实现开放世界泛化Open-World Generalization。
“…exhibits meaningful generalization to entirely new environments”“All experiments were done in homes that were NOT in the training data”—— π₀.5 官方博客π₀.5 追求的是让机器人能够在从未见过的新家庭中执行任务理解任务的语义结构并自主分解处理新物体和新场景
2 核心创新Knowledge Insulation知识隔离π₀ 存在一个严重问题训练时 Action Expert 的梯度会破坏 VLM 的预训练知识导致训练速度慢语言指令跟随能力下降泛化能力受限π₀.5 通过Knowledge Insulation解决这个问题┌─────────────────────────────────────────────────────────────────────┐ │ Knowledge Insulation 训练 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM Backbone 损失 │ │ │ │ │ │ │ │ FAST Token Loss Web Data Loss 高层次语义 Loss │ │ │ │ (离散动作预测) (VQA, Caption) (子任务预测) │ │ │ │ │ │ │ │ │ │ │ └─────────────────┼─────────────────┘ │ │ │ │ ▼ │ │ │ │ VLM Backbone │ │ │ └───────────────────────────┬─────────────────────────────┘ │ │ │ │ │ Stop Gradient ✕ ← 关键梯度截断 │ │ │ │ │ ┌───────────────────────────┼─────────────────────────────┐ │ │ │ │ │ │ │ │ Flow Matching Loss │ │ │ │ │ │ │ │ │ ▼ │ │ │ │ Action Expert │ │ │ │ 梯度不传回 VLM │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘Knowledge Insulation 的三个关键点Stop GradientAction Expert 的梯度不传给 VLM BackboneFAST Token Loss用离散动作 token 训练 VLM快速学习运动表示VLM Data Co-training同时训练 Web 数据保持语言理解能力
3 Co-Training 数据策略π₀.5 采用协同训练Co-Training策略融合多种数据源┌─────────────────────────────────────────────────────────────────────┐ │ π₀.5 Co-Training 数据 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 多模态 Web 数据WD │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌───────────┐ │ │ │ │ │ 图像描述 │ │ VQA │ │ 物体检测 │ │ 通用多模态 │ │ │ │ │ └──────────┘ └──────────┘ └──────────┘ └───────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 机器人数据 │ │ │ │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐ │ │ │ │ │ ME 数据 │ │ CE 数据 │ │ 移动操作数据 │ │ │ │ │ │ (多环境静态 │ │ (跨具身 │ │ (~400小时) │ │ │ │ │ │ 机器人) │ │ 来自 π₀) │ │ │ │ │ │ │ └──────────────┘ └─────────────────┘ └──────────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 高层次语义数据 │ │ │ │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐ │ │ │ │ │ 语言指令 │ │ 子任务标注 │ │ 高层次规划 │ │ │ │ │ │ 关闭微波炉 │ │ 捡起枕头 │ │ │ │ │ │ │ └──────────────┘ └─────────────────┘ └──────────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘
4 层次化推理类似 Chain-of-Thoughtπ₀.5 采用层次化推理流程┌─────────────────────────────────────────────────────────────────────┐ │ π₀.5 层次化推理流程 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ① 高层任务 │ │ 打扫卧室 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM 推理高层 │ │ │ │ 输入: 图像 打扫卧室 │ │ │ │ 输出: 捡起枕头 ← 自动生成子任务 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ② 子任务 │ │ 捡起枕头 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ Action Expert 推理低层 │ │ │ │ 输入: 图像 捡起枕头 │ │ │ │ 输出: [-
7,
25,
14, ...] (50步动作) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ③ 执行动作 │ │ 机器人执行生成的动作序列 │ │ │ └─────────────────────────────────────────────────────────────────────┘这种设计类似于 LLM 中的 Chain-of-Thought模型先“告诉自己”下一步应该做什么高层语言推理再执行具体的运动控制低层动作生成
π₀ 与 π₀.5 核心差异对比
1 设计目标对比维度π₀π₀.5核心目标灵巧操作Dexterity开放世界泛化Generalization评估场景训练环境或类似环境从未见过的全新环境代表任务折叠衣物、组装盒子在新家庭中打扫厨房/卧室
2 训练方法对比┌─────────────────────────────────────────────────────────────────────┐ │ 训练方法对比 │ ├───────────────────────────────┬─────────────────────────────────────┤ │ π₀ │ π₀.5 │ ├───────────────────────────────┼─────────────────────────────────────┤ │ │ │ │ Flow Matching Loss │ FAST Token VLM Data Flow │ │ │ │ │ │ │ ▼ │ ▼ │ │ Action Expert │ VLM Backbone │ │ │ │ │ │ │ │ 梯度流动 │ × Stop Gradient │ │ ▼ │ │ │ │ VLM Backbone │ Action Expert │ │ │ │ │ │ │ ▼ │ ▼ │ │ 预训练知识被破坏 ❌ │ 预训练知识被保护 ✅ │ │ │ │ └───────────────────────────────┴─────────────────────────────────────┘
3 数据策略对比数据类型π₀π₀.5VLM 预训练✅✅机器人动作数据✅✅Web 多模态数据❌✅高层次语义标注❌✅多环境数据ME有限✅跨具身数据CE✅✅
4 推理方式对比特性π₀π₀.5推理层次单层任务→动作层次化任务→子任务→动作Chain-of-Thought❌✅自主任务分解❌✅
5 性能对比指标π₀π₀.5训练步数160K20K快
5 倍推理速度快Flow Matching快相同分布内成功率高高OOD 成功率有限94%语言跟随率较差94%
6 消融实验结果π₀.5 论文中的消融实验揭示了各数据源的重要性配置分布内成功率OOD成功率OOD语言跟随率π₀.5完整83%94%94%no WD (去Web数据)82%74%80%no CE (去跨具身)67%49%67%no ME (去多环境)57%31%33%关键发现Web 数据对 OOD 泛化最重要识别新物体多环境数据ME对所有条件都重要跨具身数据CE提供通用物理技能
模型结构差异代码层面从 openpi 代码库来看π₀ 和 π₀.5 的模型结构差异非常小主要体现在两点
1 状态输入方式# π₀: 状态作为连续向量输入state_embeddingself.state_proj(state)# MLP 编码# π₀.5: 状态离散化为语言 token作为 prefix 的一部分state_tokenstokenize_state(state)# 离散化
2 时间步注入方式# π₀: 时间步与动作嵌入拼接action_with_timetorch.cat([action_emb,time_emb],dim-
outputself.mlp(action_with_time)# π₀.5: 使用 AdaRMSAdaptive RMSNorm# 时间步条件动态调整归一化的 scale 和 shiftclassAdaptiveRMSNorm:defforward(self,x,cond):normedrms_norm(x)# cond 生成 scale, shift, gatescale,shift,gateself.modulation(cond).chunk(
returnnormed*(1scale)shift
6.
总结
1 演进路线┌─────────────────────────────────────────────────────────────────────┐ │ VLA 模型演进路线 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 第一代 VLART-2, OpenVLA │ │ └── 离散动作 token精度低速度慢 │ │ │ │ │ ▼ │ │ π₀
2
10 │ │ ├── Flow Matching 连续动作 │ │ ├── 双专家架构 │ │ └── 灵巧操作能力强但泛化有限 │ │ │ │ │ ▼ │ │ π₀.
5