核心内容摘要
多篇论文要降AI?批量处理选这两款工具最划算
引言维度诅咒与架构的代际更迭在计算机视觉领域视频通常被视为一个( T , C , H , W ) (T, C, H, W)(T,C,H,W)的四维张量。
其中T TT代表时间帧数。
相比于图像生成( C , H , W ) (C, H, W)(C,H,W)视频生成仅仅是增加了一个T TT维度吗答案是否定的。
增加的T TT维度带来了指数级的计算复杂度爆炸即所谓的**“维度诅咒”**。
数据量级一段 5 秒的 1080P 30FPS 视频其原始像素数据量高达数 GB。
语义连贯图像生成只需要保证空间上的合理性猫有两条腿而视频生成必须保证时间上的因果性猫跳起来后必须落下不能凭空消失。
早期的视频生成尝试如 VDM, Imagen Video多基于3D U-Net。
U-Net 的卷积核虽然能提取局部特征但在捕捉长距离的时序依赖Long-range Temporal Dependency时显得力不从心。
这直接导致了早期 AI 视频容易出现“鬼畜”、“形变”和“逻辑崩坏”。
随着DiT (Diffusion Transformer)的提出Transformer 强大的全局注意力机制Global Attention终于被引入了扩散模型。
这标志着视频生成进入了以Scaling Law缩放定律为主导的新时代。
分时空压缩的艺术——3D VAE 的设计哲学在将视频输入到 Diffusion 模型之前第一步永远是压缩。
如果直接在像素空间Pixel Space进行扩散训练目前的算力即使是 H100 集群也无法承受。
我们需要将高维视频映射到低维的潜在空间Latent Space。
这就是3D VAE (Variational Autoencoder)的战场。
1 从 2D 到 3D 的跨越Stable Diffusion 使用的 2D VAE 压缩率为f 8 f8f8即把512 × 512 512 \times 512512×512的图压缩成64 × 64 64 \times 6464×64的 Latent。
在视频中我们不仅要压缩空间( H , W ) (H, W)(H,W)还要压缩时间( T ) (T)(T)。
目前的 SOTA 模型如 CogVideoX、Sora通常采用Causal 3D VAE。
空间压缩依然沿用卷积层下采样通常压缩 8 倍。
时间压缩这是一个权衡的艺术。
如果时间压缩率太高比如 4 帧压成 1 帧会导致高频动作丢失比如飞鸟翅膀的扇动变得模糊。
如果压缩率太低Latent 的长度会过长导致显存爆炸。
目前主流方案多采用T / 4 T/4T/4的压缩比。
2 因果性Causality的约束在训练 3D VAE 时有一个关键的技术细节因果卷积Causal Convolution。
普通的 3D 卷积会利用“未来帧”的信息来重建“当前帧”。
这在离线处理时没问题但在生成任务中我们希望模型是自回归的或者符合物理因果的。
因此现代 3D VAE 强制卷积核只能“看”到当前帧和过去帧严禁通过 Padding 泄露未来信息。
这极大地提升了生成视频的物理合理性。
️
分DiT 架构解析——当 Transformer 遇到 DiffusionLatent 准备好后就轮到核心的去噪网络Denoising Network登场了。
DiT 的核心思想非常简单粗暴Patchify Everything一切皆切片。
1 3D Patching时空切片输入是一个( T ′ , C ′ , H ′ , W ′ ) (T, C, H, W)(T′,C′,H′,W′)的 Latent 张量。
DiT 将其切割成一个个( t , h , w ) (t, h, w)(t,h,w)的小立方体Token。
例如CogVideoX 将2 × 2 × 2 2 \times 2 \times 22×2×2的 Latent 块视为一个 Token。
这些 Token 被展平后经过线性层映射Linear Projection再加上3D RoPE旋转位置编码就变成了 Transformer 可以处理的序列。
2 全注意力 vs 轴向注意力在 Transformer 内部Attention 怎么算这里存在两条技术路线的分歧Full Attention全注意力原理所有的 Token无论是在第一帧还是最后一帧是在左上角还是右下角都互相计算 Attention。
优点时空建模能力最强能捕捉最复杂的动态。
缺点计算量是O ( ( T ⋅ H ⋅ W ) 2 ) O((T \cdot H \cdot W)^
O((T⋅H⋅W)
。
序列长度一长显存直接 OOM。
Sora 据推测采用了某种优化后的全注意力机制。
Axial Attention轴向注意力/因式分解注意力原理将 Attention 拆解为Spatial Attention只看同一帧内的 Token和Temporal Attention只看不同帧同一位置的 Token。
优点计算量大幅降低显存友好。
缺点时空解耦可能导致某些复杂的时空交互动作如摄像机旋转时的透视变化学习得不够好。
代表Late-interaction 架构如 CogVideoX 的部分设计思路。
3 文本条件的注入Cross-Attention视频生成不仅要看 Latent还要看 Prompt提示词。
文本特征通过 Cross-Attention 层注入。
但在视频模型中存在一个**“指令跟随”与“时序平滑”的博弈**。
如果 Cross-Attention 权重太高每一帧都拼命想符合提示词可能会导致帧与帧之间不连贯Flickering。
如果权重太低生成的视频可能完全不理会 Prompt。
目前的解决方案通常是在 Temporal Attention 模块之后再加入 Cross-Attention或者使用Adaptive Layer Norm (AdaLN)来调节特征分布。
分工程化挑战——显存、数据与训练策略架构设计只是第一步真正的炼丹训练过程才是噩梦的开始。
1 视频-图像联合训练Joint Training这是训练高质量视频模型的公开秘密。
纯视频数据虽然包含动态但往往画质较差、运动模糊严重。
纯图像数据画质极高但没有动态。
SOTA 训练策略通常是混合 Batch在一个 Batch 中同时包含视频数据和图像数据。
图像作为单帧视频将图像视为T 1 T1T1的视频进行训练。
作用图像数据教会模型“画质”和“构图”视频数据教会模型“物理规律”和“运动”。
这种联合训练能显著提升生成视频的清晰度Sharpness。
2 噪声调度Noise Scheduling的陷阱在图像扩散中我们通常使用线性的噪声调度。
但在视频中低频噪声整体光照变化和高频噪声纹理细节对视觉的影响截然不同。
如果直接沿用图像的 Noise Schedule会导致视频生成时背景频繁闪烁。
最新的研究如 VDM提出**“信噪比SNR偏移”**策略在训练视频模型时需要向 Latent 中注入比图像模型更多的噪声迫使模型去学习更鲁棒的时序特征。
3 显存优化Sequence Parallelism序列并行单张 GPU即使是 80G 的 A100很难塞下长视频的训练任务。
**序列并行Sequence Parallelism**技术应运而生。
它将长视频的 Token 序列切分到多张 GPU 上。
GPU 0 负责处理第
帧。
GPU 1 负责处理第
帧。
在计算 Temporal Attention 时通过Ring Attention或All-to-All 通信交换 Key 和 Value。
这使得训练分钟级Minute-level的长视频成为可能。
CogVideoX 的训练就深度依赖了这种并行策略。
分开源模型的局限与未来尽管 CogVideoX、SVD 等开源模型已经非常强大但距离商业级的 Sora 仍有差距。
1 物理模拟的“幻觉”目前的 DiT 模型本质上还是概率拟合。
它并没有真正理解物理引擎。
比如生成“玻璃杯碎裂”模型只是根据概率算出碎片应该怎么飞而不是根据刚体动力学计算。
这导致在生成复杂交互如手部抓取物体、流体模拟时依然会出现穿模、反重力等现象。
2 长视频的“遗忘”当生成超过 10 秒的视频时模型往往会忘记开头的设定。
比如开头主角穿红衣服走到第 8 秒变成了蓝衣服。
这需要引入更强的KV Cache 机制或Recurrent循环结构或者探索State Space Models (Mamba)在视频生成中的应用。
结语通往世界模型的必经之路视频生成技术的终局绝不仅仅是生成一段好看的 MP4。
它的终极目标是构建World Model世界模型——一个能够理解物理规律、预测未来状态的通用模拟器。
对于技术人员而言现在的 DiT 架构可能只是一个过渡态。
未来我们可能会看到DiT 物理引擎的混合架构甚至是完全基于自回归Autoregressive的 Tokenizer 方案如 Google 的 Lumiere。
在这个领域没有永远的 SOTA只有不断被推翻的架构。
而这正是技术最迷人的地方。