核心内容摘要
17·c3起草片:穿越时光的艺术,重塑经典的传奇
导读透明和强反射物体一直是感知系统中的难题折射、反射与透射效应破坏了立体视觉、ToF 以及纯判别式单目深度方法所依赖的基本假设导致深度估计中出现空洞并在时间维度上表现出明显的不稳定性。
为解决此问题智源研究院联合清华AIR等机构的研究者们提出了一个针对透明和强放射物体的视频深度/法向估计基础模型。
该工作首先构建了首个用于透明物体几何估计的视频数据集随后巧妙地利用视频生成模型的强先验知识并结合图像–视频数据集的协同训练策略与 LoRA 训练范式将视频生成模型重用为针对透明和强反射物体的视频深度/法向估计基础模型。
最后通过大量定量与定性实验以及真实机器人平台实验验证了该方法的有效性。
原文链接智源x清华团队推出DKT秒解透明物体的感知机器人抓取任务上“质的提升”论文链接https://arxiv.org/abs/
2
23705代码仓库https://github.com/Daniellli/DKT项目主页https://daniellli.github.io/projects/DKT/数据集: https://huggingface.co/datasets/Daniellesry/TransPhy3D在线试玩链接: https://huggingface.co/spaces/Daniellesry/DKT
动机对透明和反射物体进行精确的深度估计是推动三维重建和机器人操作发展的基础。
然而这类物体所固有的物理歧义性对依赖立体匹配的深度感知相机施加了显著限制。
尤其是透明物体往往会在深度图中产生缺失区域从而导致下游任务的性能显著下降。
近期的数据驱动方法试图通过构建涵盖多样光照条件和材料属性的数据集来应对这一挑战从而近似刻画透明与高光反射物体的视觉特性并据此训练深度预测模型。
然而此类数据集在多样性方面仍然受限导致相关方法在真实世界场景中的表现往往不尽理想。
本工作推测这些方法倾向于对其训练所依赖的有限数据集产生过拟合。
为缓解泛化能力不足的问题近年来的研究逐渐引入预训练视觉编码器如 DINO或利用文本到图像的基础模型如 Stable Diffusion来训练深度估计网络。
尽管这些方法在单帧深度估计精度方面取得了显著提升但在跨帧序列上仍然缺乏足够的时间一致性。
这一局限性对依赖稳定三维感知以支持一致行动策略的下游任务尤为不利例如机器人操作等。
此类任务通常在动态且非结构化的环境中执行其中鲁棒的感知能力与时间一致的决策机制不可或缺。
随着视频生成模型Video Diffusion ModelVDM的最新进展本工作观察到其在合成与透明物体交互的、物理上合理的视频方面展现出卓越能力如图 1 第一列所示。
本工作的核心洞见在于这类模型似乎已在隐式层面内化了光传输的物理规律例如光在透明或半透明材料中的折射与反射过程。
基于这一认识为将上述知识用于透明物体的视频深度估计本工作从数据与学习两个层面做出了相应贡献。
数据本工作收集了一个包含多种类别与形态的透明及高反射物体的三维资产库。
在此基础上设计了一套自动化渲染管线利用这些资产生成物理上合理的场景并在多样化光照条件与相机运动轨迹下渲染视频数据从而构建了首个面向透明物体的视频合成数据集TransPhy3D。
该数据集聚焦于透明物体的几何估计问题有效补充了现有主要针对单帧深度估计的图像数据集。
学习本工作提出了一种面向视频深度估计的范式转变将视频深度估计从传统的判别式回归任务转化为视频到视频的条件生成问题。
具体而言本工作采用 LoRA 训练策略以高效利用视频生成模型中内在的透明与反射物体先验。
为充分利用现有的帧级数据集本工作进一步引入了一种协同训练策略实现帧级数据与视频数据的联合训练。
最终本工作提出了一个主要面向透明物体视频深度估计的基础模型称为DKT。
核心贡献本文提出了TransPhy3D首个面向透明物体的视频合成数据集包含 11,000 段视频和约 132 万帧数据用于支持视频生成模型的有效微调。
通过 LoRA高效微调视频生成模型充分利用其内在的透明与反射物体相关先验提出了首个用于透明物体视频深度估计的基础模型 DKT同时设计了一种协同训练策略使模型能够在现有合成图像数据集与 TransPhy3D 构成的混合数据上进行联合训练。
本工作在多个公开数据集上以及机器人真机抓取实验上对现有 SOTA 方法进行了系统性的基准评测实验结果表明DKT 在深度/法向估计精度以及真实世界机器人实验中均显著优于现有方法。
方法简述
3.
数据如 Figure 2 上部分所示数据资产包含两部分一是从BlenderKit 网站搜集的category-rich资产包括多样化的玻璃、高光泽度的物体和纹理二是基于超二次曲面方程表征的shape-rich 资产。
后者的纹理来自前者。
Shape-rich 资产的特点在于每个资产由多个超二次曲面方程进行表征并可通过调整方程参数生成不同形状例如 Figure 2 右上角所示的高脚杯。
在构建数据资产之后本工作随机采样M个资产并通过 Blender 内置物理引擎使其从上方自由下坠从而形成具有不同摆放位置与遮挡关系的多样化场景。
随后沿所有资产的中心采样圆形相机轨迹并对轨迹施加正弦扰动以生成多样化的相机运动路径。
最后采用 Blender 内置的 Cycles 渲染引擎进行高质量渲染。
最终本工作构建了首个面向透明与高反射物体的视频几何估计数据集 TransPhy3D。
该数据集共包含11,000个场景每个场景渲染120帧视频总计1,320,000帧图像。
3.
方法
3.
2.
视频生成模型基座本工作基于 WAN-
1其整体架构主要由两部分组成VAE 以及包含若干DiT-blocks的 Diffusion-Transformer本文不讨论 Text-Encoder。
其中VAE 负责将 RGB 视频编码至隐空间并将隐空间中的视频隐变量解码回 RGB 视频Diffusion-Transformer 则用于对给定的噪声隐变量执行去噪过程。
WAN 采用 Flow-Matching 框架对去噪过程进行建模。
在训练阶段给定图像/视频隐变量x 1 x_1x1、从标准高斯分布x 0 ∼ N ( 0 , 1 ) x_0 \sim \mathcal{N}(0,
x0∼N(0,
中采样的随机噪声以及从均匀分布t ∼ U ( 0 , 1 ) t \sim \mathcal{U}(0,
t∼U(0,
中采样的时间步首先根据下式计算得到中间状态x t x_txt并将其输入至 Diffusion Transformer得到预测velocity。
随后通过下式构造对应的真值 velocity训练过程中所采用的损失函数为模型预测的 velocity 与真值 velocity 之间的均方误差。
3.
2.
训练范式如 Figure 3左侧 所示为了提升训练效率并降低数据管线中的渲染负担本文提出了一种图像与视频数据集的协同训练策略。
具体而言首先通过下式计算一个常量F。
该F用于表示一个批次的数据里的视频长度。
相同长度的视频才能组成一个批次。
如果F等1 该批次的数据会同时从视频数据集TransPhy3D和图像数据集ClearGrasp, HISS DREDS采样。
反之 则只从视频数据集采样。
通过这种简单的批次构建策略 本工作高效地将图像数据集也利用上。
而后算法管线如Figure 3·右侧所示将RGB 视频与深度视频同时编码至隐空间分别得到x 1 c x_1^cx1c和x 1 d x_1^dx1d。
随后根据公式 (
对x 1 d x_1^dx1d加噪得到x t d x_t^dxtd。
接着将x t d x_t^dxtd与x 1 c x_1^cx1c沿通道维度进行拼接concat并作为DiffusionTransformer的输入。
训练损失被定义为模型预测的 velocity 与真值 velocity 之间的均方误差。
其中c t x t c_{txt}ctxt表示固定的文本特征编码Concat 表示沿通道维度的特征拼接操作。
为高效利用视频生成模型中关于透明与反射物体的强大先验本文在训练过程中仅对 Diffusion Transformer 中引入的少量 LoRA 参数进行优化其余参数均保持冻结不参与训练。
实验结果
4.
与现有最先进方法对比如下图所示 本工作在真实数据集ClearPose DREDS-STD-CatKnown, DREDS-STD-CatNovel以及新构建的未参与训练的仿真数据集TransPhy3D-Test均大幅超越前最优方法包括图像深度估计算法DepthAnythingV2(DAv
, 视频深度估计算法DepthCrafter等。
如下列所示DKT实现了最优的透明物体深度召回率以及最平滑的深度。
更多定性结果参考本工作的项目主页以及欢迎通过在线Demo进行试玩。
4.
消融实验训练策略 如下图所示LoRA 训练策略能够较好地避免灾难性遗忘从而实现更优的性能表现。
在确定训练策略后本文进一步对模型参数规模进行扩展最终获得了性能最优的模型。
推理步数如下图所示去噪步数过少会引入较大的预测误差而去噪步数过多则容易导致小尺度物体细节的丢失。
在不同设置的对比中采用5 个去噪步数能够在精度与细节保留之间取得最佳平衡从而实现最优性能。
时间效率时间效率是下游具身任务中最为关键的考量之一。
如图所示本文提出的 DKT-
3B 在832×480分辨率下的单帧预测速度达到
1
48 ms/帧在同类方法中实现了最优运行效率显著优于 DepthAnythingV2 与 DepthCrafter。
视频法向估计 为了进一步验证本文所提出方法论的有效性本工作进一步设计了 DKT-Normal一个全新的面向透明与反射物体的视频法向估计基础模型。
如图和视频所示DKT-Normal-14B 在 ClearPose 数据集上的定量与定性对比实验中均显著超越了现有最先进的法向估计方法包括图像法向估计算法 Marigold-E2E-FT 以及视频法向估计算法 NormalCrafter。
更多实验结果请参考本文的项目主页及在线 Demo。
4.
真机实验如下图所示为了进一步验证算法的有效性本文设计了三种不同的真实机器人实验设置分别针对反射平面、半透明平面以及漫反射平面上的透明与反射物体抓取任务。
实验结果表明在上述三种实验设置下DKT-
3B均取得了最优性能显著优于DepthAnythingV2和DepthCrafter。
4.
更多in-the-wild 测试效果展示
4.
4.
动态场景
4.
4.
机器人场景
4.
4.
小物体
4.
4.
其他更多实验结果请参考本工作的项目主页以及在线demo。
具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π