核心内容摘要
视觉艺术的巅峰邂逅:深度解析“色洛洛亚洲色图精选高清资源”的感官魅力
想象一下在一个阳光充足的下午机器人在打扫房间。
在窗户边上的桌子透明的玻璃水杯需要放回指定的位置机器人走过去面对强光直射和透明的物体机器人只能无意义的重复抓取动作仿佛面对一个“幽灵”。
这不是什么科幻场景而是当下具身领域的现实困境 —— 在透明、反光、极端光照等日常场景中3D 空间感知失效让具身机器人不再智能…原文链接视觉VLA看不到的“那堵墙”被发现了…
纯视觉方案的“有心无力”具身领域正在逐渐脱离“讲故事”的阶段转变为生产力是每家企业都在思考的问题。
但在真实物理世界中纯视觉依赖RGB图像的纹理、色彩信息推断空间关系现实中大量场景让这种“空间感知”寸步难行。
透明物体纯视觉VLA的“幽灵”透明材质玻璃、亚克力、透明容器是纯视觉感知的噩梦。
在机器人抓取任务中纯视觉甚至无法定位透明存储盒的存在更别提精准抓取。
虽然有一些方法尝试在解决这个问题但效果还比较受限主要是因为透明物体无自身固定纹理表面信息完全依赖环境反射与折射仅通过RGB图像模型无法判断其轮廓、厚度与空间位置就像面对“视觉幽灵”看得见却摸不着。
反光与极端光照无纹理场景的“感知失明”同样反光表面金属器皿、镜子、光滑车漆和极端光照强光直射、暗光环境会彻底摧毁纯视觉依赖的“纹理特征”。
反光材质会反射周围环境的光影形成与物体本身无关的虚假纹理 —— 传统立体匹配算法会被这些虚假信息误导将反射光斑误判为物体表面极端光照则进一步放大了感知缺陷强光直射下RGB 图像出现过曝物体边缘与背景融为一体暗光环境中图像噪点剧增低纹理表面如白墙、瓷砖地面更会让“感知失明”。
Depth提供了空间的尺子但依然“模糊不清”RGB-D相机的出现提供了空间感知的一把尺子。
在正常环境中它可以提供稳定的深度让机器人操作“从从容容游刃有余”是目前最理想的3D感知模态但现实很骨感。
硬件的物理局限让这把“空间标尺”始终“模糊不清”深度缺失在透明、反光、低纹理表面立体匹配算法频频失效导致深度图出现大量“黑洞”这些失效会导致严重的数据损坏和真值缺失直接违背了对密集、像素对齐几何结构的要求测量噪声受传感器精度、光照变化影响有效深度像素也存在量化误差、光子噪声导致深度图边缘模糊、细节丢失硬件依赖高端深度相机如LiDAR成本高昂但消费级RGB-D相机也难以直接用于高精度场景。
现有基于双目深度相机工作方式类似人眼两个镜头从略有差异的视角同时拍摄场景系统通过匹配两幅图像中的对应点来计算深度。
然而这种方法存在先天缺陷——在纹理缺失区域、透明材质或强反光表面上匹配算法往往失效因为两路图像要么过于相似、要么发生严重畸变。
结果就是恰恰在最需要深度信息的地方传感器反而输出空洞或错误数据。
所以硬件层面无法解决的感知缺陷只能靠算法来弥补。
深度图视觉模型的“重大突破”就在今天蚂蚁灵波提出了LingBot-Depth给Depth这把“尺子”上了更精细的“刻度”。
论文标题Masked Depth Modeling for Spatial Perception开源链接https://github.com/robbyant/lingbot-depth项目主页https://technology.robbyant.com/lingbot-depth目前LingBot-Depth的源码和模型均已开源。
demo
一句话定义具身智能的“视觉增强”引擎LingBot-Depth 是蚂蚁集团旗下具身智能公司灵波科技开源的高精度空间感知模型可在不更换硬件的前提下显著提升透明、反光等复杂材质场景的深度输出质量给机器人一双看清三维空间的“眼睛”。
LingBot-Depth 的核心创新是提出了 “Masked Depth Modeling掩码深度建模” 范式和可扩展的真实深度数据数采范式。
不把深度相机的缺失数据当 “噪声”而是视为反映场景几何模糊性的 “自然掩码”通过 RGB 与深度的跨模态联合学习让模型学会 “用视觉上下文补全空间信息”。
值得一提的是我们在本文中发现奥比中光深度实验室也验证了LingBot-Depth的性能。
千万量级数据Depth Scaling再升级蚂蚁灵波的LingBot-Depth提供了千万量级的大规模RGB-D预训练数据并设计了一套可供参考的合成数据和真实数据收集流程。
现有RGB-D数据集要么为减少缺失深度测量而避开复杂成像条件要么使用高质量3D资产和渲染引擎生成近乎完美的深度图。
因此这些数据集缺乏掩码深度建模所需的自然产生的深度不完整性。
为克服这一限制LingBot-Depth保留真实传感器缺失模式下的RGB-D数据并设计了两条数据收集流程。
合成数据LingBot Depth-SLingBot Depth的目标不是制作完美的深度图相反它明确模拟真实世界主动式RGB-D相机的成像过程生成带有自然缺陷的逼真深度观测值。
最终从442个室内场景中渲染了100万个合成样本。
真实数据LingBot Depth-R可扩展的RGB-D相机采集系统通过3D打印设计并制造了定制安装支架允许不同商用RGB-D相机灵活安装。
最终收集了200万个场景多样性丰富的真实采集数据用于掩码深度建模。
这套流程为学术界和工业界提供了一套完整的数据制作 → 模型训练 → 下游应用的闭环范式。
除制作的的320万数据外LingBot-Depth还使用开源数据集作为补充形成总计1000万个训练样本用于模型训练。
不止是“补全”从单一任务到全能感知模型层面LingBot-Depth以“掩码深度建模”为核心遵循encoder–decoder框架下掩码图像建模的通用范式但通过对RGB-D输入进行处理将学习目标从外观重建转向深度图预测。
训练过程中LingBot-Depth使用海量 RGB–深度图像对但刻意遮挡其中一部分深度区域让模型仅根据 RGB 图像去预测缺失的深度值。
随着训练进行模型逐渐学会建立“外观—几何”之间的对应关系也就是从“物体看起来像什么”推断“它大概有多远”。
核心点在于传感器失效并非随机噪声而是在特定材质与光照条件下可预测地发生。
因此LingBot-Depth不再将这些区域简单视为需要滤除的坏数据而是把它们当作有价值的学习信号。
模型会逐渐掌握这样的规律“当我看到这种类似玻璃的外观和反射模式时对应的深度大致应落在这个范围。
”通过ViT学习RGB外观与深度几何的联合表征既能补全缺失的深度信息又能提升单目深度估计、立体匹配的精度本质是为RGB-D相机加装了“视觉增强模块”。
传统深度补全模型仅能填充缺失像素而LingBot-Depth实现了“一专多能”深度补全在iBims、NYUv2等数据集均超越OMNI-DC、PromptDA等主流方案极端条件下RMSE降低40%以上能精准还原透明物体、反光表面的深度轮廓单目深度估计仅用RGB图像就能输出高精度深度图在10个不同场景的数据集室内、户外、合成、真实中性能全面超越基于DINOv2预训练的基座模型立体匹配增强作为FoundationStereo的深度先验让立体匹配模型收敛速度提升3倍最终EPE降低20%在HAMMER、Booster等难点数据集表现最优。
这种全能性背后是MDM范式的核心优势通过“自然掩码”学习到的跨模态表示既包含RGB的纹理信息又融合深度的几何先验让模型具备了更通用的空间理解能力。
极端环境下的“一目了然”透明/强光/暗光都不怕极端环境下的真实场景LingBot-Depth表现出极强的鲁棒性视频时空一致性即使仅在静态图像上训练模型处理视频时仍能保持深度的时空平滑性在玻璃大厅、健身房等动态场景中输出的深度序列无抖动远超ZED等高端立体相机强光场景在DIODE户外数据集深度范围大、光照强烈中模型仍能保持RMSE
811远低于同类方案的
239暗光/低纹理场景在无纹理白墙、夜间室内等场景模型通过RGB图像的全局上下文如墙面与物体的边界、光影变化补全深度细节避免传统方案的“大面积模糊”。
面对真实世界的灵巧抓取过程准确的深度信息对于生成精确的抓取姿态至关重要。
如下图所示原始深度传感器通常会失效的透明和反射物体LingBot-Depth生成的深度都非常完美。
LingBot-Depth提供的深度持续提升了具身抓取的成功率。
由于严重的深度损坏使用原始深度完全无法抓取透明储物盒基于优化的depth训练后的模型仍实现了50%的成功率。
这些结果表明深度补全性能的提升可以直接转化为真实世界场景中更可靠的机器人操作。
demo2不止是应用在具身抓取领域LingBot-Depth在相机位姿和4D点跟踪等空间感知任务上的效果也可圈可点。
通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果模型显著提升了多种高层视觉任务的稳定性与精度。
这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。
demo
不挑硬件无痛迁入“3D相机”方案中LingBot-Depth的另一大优势是“低门槛落地”硬件兼容支持Intel RealSense、Orbbec Gemini、ZED等主流消费级RGB-D相机无需改装硬件直接接入即可提升性能数据支撑灵波团队构建了规模化数据采集 pipeline包含210万真实场景样本100万合成样本覆盖住宅、商场、医院、户外等12类场景再结合7个开源数据集总训练数据达1000万确保模型的泛化能力轻量化部署模型采用BF16混合精度训练推理时无需复杂后处理能满足实时性需求30 FPS可直接嵌入现有具身VLA模块。
结语LingBot-Depth仅仅是个开始技术的终极意义在于落地LingBot-Depth没有追求更昂贵的传感器而是通过更普世的方法让整个领域享受技术发展的红利。
LingBot-Depth仅仅是个开始。
这只是蚂蚁灵波迈出的第一步本质是“算法弥补硬件局限”并且验证了深度优化对具身操作有效的能力提升。
未来也期待看到灵波在具身领域更多的工作。
具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π