核心内容摘要
被污染的采摘:当自然的馈赠蒙上阴影
25年10月谢赛宁团队发布了RAE不再修补VAE谢赛宁团队用RAE实现从8%到84%的飞跃宣告VAE时代结束。
RAE利用高维语义空间在文生图任务中实现了比VAE快4倍的收敛速度并在大规模微调中展现出极强的抗过拟合能力证明了其作为下一代生成模型基石的潜力。
来自纽约大学由LeCun、谢赛宁指导的研究团队将RAE扩展到了大规模文生图生成任务中利用预训练视觉编码器的高维语义特征直接进行生成。
在相同的训练条件下RAE在收敛速度、生成质量以及训练稳定性上均全面优于目前最先进的VAE模型。
这为构建理解与生成统一的多模态模型开辟了一条更简洁、更高效的新路径。
扩展解码器训练表示自编码器RAE的核心理念在于利用强大的冻结视觉编码器来提取高维特征并训练一个轻量级的解码器将这些特征还原为图像。
这种方法此前在ImageNet等封闭数据集上表现出色但能否应对开放世界中复杂多变的文本生成图像任务一直是未解之谜。
研究团队首先面临的挑战是如何将RAE解码器的能力从特定领域扩展到通用的视觉生成。
他们选用了SigLIP-2作为冻结的表示编码器并在此基础上展开了大规模的解码器训练实验。
为了适应开放世界的生成需求训练数据的选择至关重要。
研究人员发现仅仅依赖ImageNet及其衍生的受控数据集无法满足处理自然语言描述的复杂场景需求。
他们构建了一个包含约7300万张图像的混合数据集来源涵盖了从FuseDiT收集的网络图像、由FLUX.1-schnell生成的合成图像以及专门用于提升文本渲染能力的RenderedText数据集。
实验结果表明简单地增加数据量并不能线性地提升解码器的性能。
在仅使用ImageNet数据训练时解码器在自然图像重建上表现尚可但在处理包含文字或特殊排版的图像时显得力不从心。
当引入网络规模的图像数据后解码器在YFCC等多样化自然图像测试集上的重建质量有了中等程度的提升这表明更广泛的数据分布有助于提高模型的泛化能力。
网络数据的杂乱性和非结构化特征使得模型在精细的文本重建任务上依然举步维艰。
真正的突破来自于数据组合的优化。
研究团队发现文本重建需要极具针对性的监督信号。
当在训练数据中加入合成的文本渲染数据后解码器对字形细节的还原能力得到了质的飞跃。
这种针对性的数据补充比单纯盲目地堆砌数据规模更为有效。
图中展示了不同数据训练下的RAE解码器重建效果。
仅在ImageNet上训练的解码器左二列在处理自然图像时表现尚可但在面对包含文字的场景时完全失效。
引入网络和文本数据后左三列文本的可读性和图像细节得到了显著修复整体保真度甚至可以与专有的VAE模型最右列相媲美。
这一发现揭示了RAE扩展过程中的一个关键原则数据组合的质量和针对性远比单一的数据规模重要。
合成数据提供了清晰的结构和风格一致性而网络数据提供了丰富的语义多样性两者结合再加上特定的领域数据才能训练出一个鲁棒的高维解码器。
表格数据进一步佐证了这一点在包含文本数据的组合上训练的模型在文本重建指标上取得了压倒性的优势证明了针对性数据在解决特定领域生成缺陷时的不可替代性。
研究还测试了不同的视觉编码器对重建性能的影响。
除了SigLIP-2团队还尝试了基于自监督学习的大规模模型WebSSL-DINO。
结果显示WebSSL-DINO在各项重建指标上甚至优于SigLIP-2这表明RAE框架并不受限于某一类特定的编码器具有广泛的适用性。
尽管目前的RAE解码器在绝对数值上仍略逊于经过高度优化的FLUX VAE但它们已经证明了在保留高维语义特征的同时能够实现高质量的图像重建为后续的生成模型训练奠定了坚实的基础。
规模化简化架构将RAE应用于大规模文生图任务是对原有设计理念的一次严苛压力测试。
原本针对ImageNet设计的RAE包含了一系列复杂的架构调整和训练技巧比如加宽的扩散头DiT-DH和噪声增强解码。
研究团队在大规模设置下对这些设计进行了逐一验证发现了一个有趣的现象随着模型规模的增大架构反而可以变得更加简单唯一不可或缺的是适应维度的噪声调度。
噪声调度是扩散模型训练中的核心环节。
RAE处理的是高维潜在空间其维度远超传统VAE的低维空间。
研究指出传统的噪声调度策略在高维空间中会失效导致训练难以收敛。
RAE提出了一种基于维度的噪声调度偏移策略根据潜在空间的有效维度来重新缩放扩散的时间步。
实验数据表明这一策略在文生图任务中同样至关重要。
上表清晰地展示了噪声调度偏移的影响。
在不使用偏移的情况下模型的GenEval分数仅为
2
6DPG-Bench分数为
5
8。
一旦启用了维度依赖的噪声偏移这两个指标分别飙升至
4
6和
7
8。
这一巨大的性能鸿沟证明了针对高维空间的数学特性进行噪声调度调整是RAE训练能够成功的基石。
与噪声调度的不可或缺形成鲜明对比的是原本被认为必须的架构修改在规模化面前显得多余。
以加宽扩散头DiT-DH为例这一设计原本是为了解决小模型骨干网络宽度不足的问题通过在末端增加一个宽而浅的层来匹配高维潜在空间的通道数。
在ImageNet实验中这一设计带来了显著的性能提升。
当扩散TransformerDiT的模型参数扩展到20亿2B以上时情况发生了变化。
现代大规模DiT模型的隐藏层维度通常已经超过2048这本身就大于RAE的潜在空间维度通常为1152。
模型本身的容量已经足够大不再存在所谓的瓶颈。
实验结果证实了这一假设在
5B的小模型上DiT-DH确实带来了显著的增益但在
4B及更大的模型上这种增益迅速饱和并变得微不足道。
图中生动地描绘了这一趋势。
左图显示噪声增强解码在训练初期能带来一定的正则化效果但随着训练步数的增加其优势几乎消失殆尽。
右图则展示了DiT-DH的优势随着模型规模的增加而迅速衰减。
在迈向数十亿参数的大模型时代我们不需要为RAE设计特殊的复杂架构标准的DiT架构配合正确的噪声调度即可胜任。
这种规模即简化的发现具有深远的意义。
研究人员可以直接复用现有的、经过充分验证的大规模DiT架构而无需进行繁琐的定制化修改。
这极大地降低了采用RAE架构的门槛使得社区能够更专注于数据和训练策略本身而不是陷入架构微调的泥潭。
去除噪声增强解码同样是一个重要的简化。
在小规模实验中为了弥补训练和推理时的分布差异往往需要对解码器输入添加扰动。
在大规模文生图训练中模型在漫长的训练过程中自然学会了鲁棒的流形表示这种显式的正则化手段变得可有可无。
这一发现进一步精简了训练流程减少了超参数调整的负担。
卓越的训练效率与统一潜力在公平的竞技场上RAE到底能不能打败统治该领域的VAE研究团队使用Qwen-
5
5B作为语言模型分别配合不同规模的DiT骨干网络在SigLIP-2 RAE和FLUX VAE两种潜在空间上从头开始训练文生图模型。
这是一个严格控制变量的对比实验唯一的变量就是潜在空间的选择。
在预训练阶段基于RAE的模型展现出了惊人的收敛速度。
RAE模型在GenEval基准上实现了
0倍的加速在DPG-Bench上实现了
6倍的加速。
更令人印象深刻的是RAE在微调阶段的稳定性。
在高质量数据上进行微调是提升模型最终效果的标准步骤但往往伴随着过拟合的风险。
VAE模型在这一阶段表现出了脆弱性仅仅经过64个epoch的微调其性能就开始大幅下降损失函数迅速坍缩至接近零表明模型开始死记硬背训练样本而非学习规律。
RAE模型在微调过程中表现出了极强的韧性。
即使在微调了256个epoch之后RAE模型的性能依然稳定没有出现过拟合的迹象。
这种稳定性可能源于RAE潜在空间的高维特性和丰富的语义结构。
不同于被强力压缩的VAE潜在空间RAE的空间保留了更多的语义信息这为模型提供了一种隐式的正则化防止其在微调过程中陷入局部最优解。
除了生成性能的优势RAE架构还为多模态模型的统一带来了新的可能性。
传统的多模态模型通常采用双塔结构一个视觉编码器用于理解一个独立的VAE解码器用于生成。
这两者使用完全不同的潜在空间导致模型在生成时实际上无法利用其理解能力来指导生成过程。
RAE打破了这一隔阂。
由于生成过程直接发生在视觉编码器的表示空间中模型生成的高维特征正是它用来看世界的特征。
这种共享的潜在空间使得大语言模型可以直接在潜在空间中对生成结果进行推理和验证而无需将其解码为像素图像。
图中展示了这种潜在空间测试时扩展的创新应用。
模型生成多个候选的潜在表示LLM直接在这个抽象空间中评估哪一个最符合文本提示然后只解码最好的那个。
这提高了效率的同时模型能够真正地理解自己生成的内容。
在视觉理解任务的基准测试中使用RAE生成的模型并没有因为引入生成任务而牺牲理解能力。
相反由于共享了强大的冻结编码器模型在多模态理解和生成任务上实现了双赢。
这种架构的简洁性和功能的一致性使得RAE成为了构建下一代统一多模态基础模型的理想选择。
RAE代码和模型已经开源我们有理由期待这一更为简洁、强大的架构将推动生成式AI迈向新的高度。
参考资料https://arxiv.org/pdf/
2