核心内容摘要
51-每日大赛-女友的最新章节:心动预警,甜度爆表!
文章360Anything: Geometry-Free Lifting of Images and Videos to 360°代码https://360anything.github.io/单位Google DeepMind
问题背景传统全景生成的两大“拦路虎”依赖相机 metadata传统方法要把普通视角“贴”到全景画面上必须知道相机的视场角FoV、拍摄姿态俯仰、翻滚等但现实中大部分“野生”素材比如手机随手拍、网上下载的视频都没有这些校准信息就算靠外部工具估算结果也容易出错导致生成的全景变形、错位。
存在接缝 artifacts全景画面的左右边界本应自然衔接但传统模型在处理图像时会用“零填充”技术导致边界数据不连续最终生成的全景会出现一条明显的“断层线”影响沉浸式体验。
泛化能力差很多方法假设输入素材的视角是固定的比如90°视场角遇到不同拍摄角度的素材就会出现拉伸、变形无法适应真实场景的多样性。
方法创新用“数据规律”替代“几何计算”360Anything的核心思路是“抛开几何约束让数据自己说话”主要有三大创新点几何无关的序列拼接不强行计算普通视角和全景的空间对应关系而是把两者都当成“数据片段序列”。
通过扩散TransformerDiT模型让AI从海量数据中自主学习“什么样的普通画面对应什么样的全景”直接省略相机参数估算步骤实现端到端生成。
循环 latent 编码根治接缝问题找到接缝的根源——VAE编码器的“零填充”操作。
为此设计了“循环 latent 编码”把全景左右两边的部分画面裁剪下来分别贴到对方一侧再进行编码让边界数据自然衔接从训练阶段就彻底消除接缝。
标准化全景生成不管输入素材的拍摄角度多怪都强制生成“重力对齐”的标准化全景比如地平线水平、重力方向向下。
通过预处理步骤校准训练数据的重力方向让模型不用学习多种畸变模式生成的全景更自然、更稳定。
实验结果性能碾压传统方法还能“反向估算”相机参数全景生成质量顶尖在图像生成任务中360Anything的各项指标FID、KID等全面超越CubeDiff等传统方法其中衡量全景整体质量的FAED指标误差降低近50%视频生成任务中在视觉质量、运动流畅度等维度大幅领先Imagine
Argus等基线模型就算没有相机参数也比依赖真实参数的方法表现更好。
零样本相机参数估算意外解锁“反向技能”——虽然没专门训练过相机校准但能通过生成的全景反推输入素材的视场角和拍摄姿态在多个真实数据集上的估算误差仅
93°仅次于专门的校准模型展现了强大的几何理解能力。
3D重建能力出色生成的全景视频能直接用于3D高斯 splatting 重建还原出可自由漫游的3D场景证明了全景内容的几何一致性。
鲁棒性拉满面对不同视场角30°-120°、拍摄姿态的素材性能波动不超过
0就算是AI生成的“野生”视频、大运动幅度的素材也能生成稳定、无畸变的全景。
优势与局限核心优势门槛极低无需相机参数、不用手动调整输入普通照片/视频简单文字描述就能生成高质量全景普通人也能轻松使用。
效果出色无接缝、无畸变全景质量和几何一致性远超传统方法还能支持3D重建。
泛化性强适配各种拍摄角度、运动幅度的素材不管是真实拍摄还是AI生成的内容都能处理。
现存局限受限于基础模型基于预训练视频扩散模型微调难以处理涉及复杂物理规律的场景比如液体流动、物体碰撞。
视频长度有限受算力限制目前只能处理81帧的视频无法支持长时间全景生成。
存在数据偏见训练数据中包含大量YouTube全景视频偶尔会生成三脚架、手等无关物体或出现黑色边框。
高分辨率升级难现有视频超分工具会重新引入接缝需要专门的全景超分技术支持。