核心内容摘要
深入解析302重定向:临时移动的HTTP状态码
快速了解部分基础信息英文
题目: Inference-time Physics Alignment of Video Generative Models with Latent World Models
时间:
2026.
机构: FAIR, Meta Superintelligence Labs, University of Oxford, Mila-Québec AI Institute, Columbia University, McGill University, Canada CIFAR AI Chair
3个英文关键词: Video Generation, Physics Plausibility, Latent World Models1句话通俗
总结本文干了什么事情本文提出了一种在推理阶段利用潜在世界模型Latent World Models作为奖励信号来校准视频生成模型的方法从而在不重新训练模型的情况下显著提升生成视频的物理合理性。
研究痛点现有研究不足 / 要解决的具体问题当前最先进的视频生成模型虽然视觉效果尚可但往往违背基本物理原理如物体运动、流体动力学等导致生成的视频物理上不真实。
现有研究通常认为这是预训练阶段缺乏物理理解导致的而本文发现推理策略的次优也是导致物理不合理的重要原因。
核心方法
关键技术、模型或研究设计简要本文提出了WMReward利用 VJEPA-2一种潜在世界模型的“惊喜分数”Surprise Score作为物理合理性的奖励信号。
通过 Best-of-N (BoN) 搜索和引导采样Guidance策略在推理时搜索和引导去噪轨迹从而从倾斜的物理合理分布中采样。
深入了解部分相比前人创新在哪里视角转变不同于以往通过改进预训练或后训练注入物理知识的方法本文将提升物理合理性的任务视为一个推理时对齐Inference-time alignment问题。
奖励信号源证明了潜在世界模型Latent World Models比现有的视觉语言模型VLMs或像素级重建模型更能有效作为物理合理性的代理指标。
扩展性展示了通过增加推理时的计算量搜索空间模型性能有显著的提升效果。
解决方法/算法的通俗解释想象你在生成视频时有一个“物理监考老师”VJEPA-2模型在旁边看着。
这个老师不关心画面的细节像素只关心物理规律对不对。
打分老师根据生成的画面与它预测的物理状态之间的差异给出一个“惊喜分”差异越大分数越高/越负面。
修正利用这个分数系统在生成时会进行“多次尝试”Best-of-N或者“边画边改”Guidance专门挑选那些符合物理规律的视频帧从而让最终生成的视频不仅好看而且动得合理。
解决方法的具体做法构建奖励函数利用 VJEPA-2 的预测误差生成未来的表征与模型预测表征之间的余弦距离定义为WMReward。
采样策略Best-of-N (BoN)从基础模型中生成 N 个候选视频选择 WMReward 分数最高的一个。
Guidance (V)利用奖励函数的梯度直接干预扩散模型的去噪过程引导生成轨迹向高奖励物理合理区域移动。
组合策略 (VBoN)结合上述两种方法既利用梯度引导又进行最终筛选。
基于前人的哪些方法VJEPA-2作为奖励模型的基础利用其在压缩潜在空间中学习到的强大物理先验。
扩散/流匹配模型作为基础的视频生成模型如 MAGI-1 和 vLDM。
推理时对齐Inference-time alignment借鉴了图像生成领域中利用奖励模型进行搜索或引导的思路如 Best-of-N, Classifier Guidance。
实验设置、数据、评估方式、结论模型MAGI-1 (24B autoregressive model) 和 vLDM (5B holistic diffusion model)。
数据集PhysicsIQ (I2V, V2V), VideoPhy (T2V)。
评估方式自动指标PhysicsIQ 分数结合 IoU, MSE 等VideoPhy 的物理一致性 (PC) 和语义一致性 (SA)。
人工评估针对物理合理性、视觉质量和提示词对齐进行成对偏好打分。
结论在 PhysicsIQ 挑战赛中以
6
64%的得分获得第一名超越之前的 SOTA
42%。
在 VideoPhy 上物理一致性PC显著提升。
人工评估显示相比基线物理合理性胜率达到
5
9% -
5
3%。
验证了 WMReward 在增加搜索粒子数N时具有良好的扩展性。
提到的同类工作VLM-based methods如 Xue et al. (
使用 VLM 重写提示词Yang et al. (2025b) 使用 VLM 规划运动。
Pre-training methods如 Yuan et al. (2025b), Chefer et al. (
等试图在预训练阶段注入物理信息。
Other Inference methods如 SMC (Singhal et al.,
和 SVDD (Li et al., 2024a) 等推理时搜索算法。
和本文相关性最高的3个文献Assran et al., 2025 (VJEPA-
本文直接复用其作为奖励模型的基础是 WMReward 的核心来源。
Motamed et al., 2025 (PhysicsIQ)提出了物理合理性的基准测试是本文主要的实验验证平台。
Garrido et al., 2025 (Intuitive physics in VJEPA)证明了 VJEPA 模型中自然涌现出直观物理理解如物体恒常性为本文利用 VJEPA 作为物理奖励提供了理论依据。
我的利用VJEPA-2作为奖励信号来训练视频生成模型。