核心内容摘要
金蝶云星空与Clover POS系统数据互通对接
空间智能靠什么“感官”输入自动系统的传感器像一个“多语种团队”各自擅长不同信息● 相机语义丰富颜色纹理细节多最像人眼。
● 激光雷达LiDAR几何精确能把空间结构测得很准但语义很“寡淡”。
● 毫米波雷达Radar对运动线索敏感速度等信息强。
● 事件相机Event camera时间分辨率极高适合高速动态场景。
可见神秘的空间智能实际上也是由几类常见的传感器和多模态数据作为基本输入多模态的
核心价值不是“堆设备”而是互补相机补语义LiDAR补几何雷达补运动。
和当前的多模态融合算法不同空间智能面对的真正难点在于怎么让模型把这些异质信号融合成同一种“可推理的空间表征”。
平台与数据集空间智能的“练功房”长什么样聊完数据输入我们再来看看这些数据输入的集合也就是数据集长什么样。
研究人员通常按平台把数据集生态分成几类因为平台不同数据长相就不同● 地面自动驾驶传感器配置全面、规模大、任务密集常见基准里能看到 KITTI、nuScenes 等代表性数据集名这里更关键的是“车载多传感器同步与场景多样性”。
图2代表性自动驾驶数据集汇总。
表中“Region”表示数据主要来源区域AS亚洲、EU欧洲、NA北美。
传感器配置给出了相机、激光雷达、雷达的数量数据统计里“Scenes”表示场景片段/序列数“Frames”表示标注帧总量条件信息里“Weather”表示是否覆盖恶劣天气“dn”表示是否包含昼夜场景。
“-”表示该项信息未提供或不支持● 空中无人机视角更自由、尺度更大、轨迹更长语义与几何的关联更容易“断线”因此专门的无人机数据集与基准被单列出来例如 UAV-3D、UAVScenes 这类方向性的例子。
图3无人机相关数据集的时间脉络2016至今。
“Region”里 Multi 表示跨多个地区/平台采集的数据Sim 表示仿真合成数据“Viewpoint”表示视角来源G地面视角、A空中视角、AG空地联合视角“Annotations”汇总了这些数据集支持的下游任务类型用来对比不同数据集更适合训练哪类能力● 其他平台轨道、无人船、腿式机器人等更偏长尾场景环境变化强、传感器退化更常见反而更考验表征的泛化能力。
但无论哪一类平台都绕不开同一堵墙大量数据集依赖昂贵人工标注这会在规模和泛化上形成瓶颈因此“从原始传感器数据里自学”成了主流方向之一。
预训练方法谱系从“单项训练”到“多模态合练”有了数据接下来就需要考虑如何处理这些数据了小编这里不罗列晦涩难懂的名词而是按“传感器之间的信息流向”来分派系方便各位读者进行理解。
研究界常见的三大类是● LiDAR-Centric以LiDAR为主把视觉语义蒸馏进 3D 几何表征。
● Camera-Centric以相机为主把几何先验注入 2D 表征让相机也更“懂空间”。
● Unified Frameworks统一框架不再强调谁教谁而是把多模态一起放进共享表示空间里联合优化。
下面逐个拆开讲清楚它们在练什么。
1 单模态预训练单模态预训练可以理解成“打地基”在没有跨模态帮助时让每种传感器先学会提取可靠特征。
比如 LiDAR 数据稀疏、无纹理就需要专门的目标来学习结构与时序规律相机则更容易从视频序列里学到一致性与动态线索这类方法通常被当作后续多模态融合的前提。
图4典型的“仅激光雷达”预训练思路示意。
在没有人工标注的前提下要从稀疏点云里学出稳定的几何表征研究者常用三条路(a) 掩码重建MAE把点云遮掉一部分再补回来用来学习局部结构与几何细节(b) 对比学习让不同视角/增强后的同一场景特征保持一致从而学到更鲁棒的区分能力© 时间预测预测未来帧或时序变化让表征不仅懂“长什么样”也开始懂“怎么动”
2 LiDAR-Centric给点云“补语义”LiDAR 的强项是精准 3D 结构但弱点也很硬语义稀疏、缺纹理。
而视觉基础模型往往带着更强的开放世界语义先验。
于是 LiDAR-Centric 的思路是把图像当作训练阶段的“特权信息”把 2D 的语义的丰富性迁移到 3D 网络里让点云模型在推理时即便没有相机也能“补出”语义特征。
直观一点说这类方法像在教点云“认字”。
点云原本只会量尺寸、看轮廓现在要学会把轮廓和“这是什么东西、有什么意义”绑定起来。
图5以激光雷达为主的跨模态预训练方法分类。
点云的短板往往在语义上为了补这块研究者常在训练阶段把图像当作“额外老师”推理时不一定必须依赖它。
常见范式包括(a) 跨模态掩码重建利用2D引导的遮盖策略增强点云重建与结构理解(b) 跨模态对比/蒸馏要么让相机与点云特征对齐要么把视觉基础模型里更丰富的开放词汇语义迁移到3D编码器© 时序跨模态训练利用视频-点云序列学习运动规律并约束时空一致性让表征更“懂动态”
3 Camera-Centric让相机更“懂几何”开始“想象未来”相机天然缺少精确深度靠单帧很难把空间结构讲清楚所以 Camera-Centric 常见目标之一是“把 2D 语义抬升到可度量空间”例如把透视视角映射到鸟瞰BEV一类统一坐标中用序列约束来学几何一致性。
更有意思的一条趋势是相机不再只做静态识别而是被推向预测式世界建模通过视频预测未来状态、通过可微渲染把几何表示变成“能被重投影检验的东西”逼模型理解时间演化与物理约束。
这里甚至出现把 3D Gaussian Splatting3DGS 这类可渲染 3D 表示纳入预训练循环的做法用渲染一致性来学习更连续、更高精度的几何表示并把方法推向更像“神经模拟器”的方向。
图6以相机为主的预训练思路示意用激光雷达“教”视觉。
这类方法的目标是把3D几何先验注入2D视觉骨干网络让相机不只会认物体也更会“懂空间”。
常见做法包括(a) 深度估计显式学习几何结构(b) 特征蒸馏对齐2D与3D的潜在特征空间© 预测式学习与(d) 生成式渲染让视觉模型能从单目输入补全/想象3D结构并预测未来的场景变化把能力推向更强的动态理解
4 Unified Frameworks多模态一起练学“模态无关表征”统一框架的目标很直接不让系统依赖“某个模态永远在线”而是学到一种更稳的共享表征。
典型流程会把多模态输入先做 masking随机遮盖再做 alignment对齐 和 reconstruction重建 等阶段式训练让相机编码器和 LiDAR 编码器在同一个潜空间里协同优化。
它的价值在于当某个传感器退化或缺失时系统不至于立刻“失明”因为表征本身更接近“任务需要的空间理解”而不是某个模态的原始纹理这样可以有效应对不同的外部场景比如雨夜中让以LiDAR为主相机为辅从而有效避免单一传感器退化对系统造成的影响。
图7统一的多模态预训练框架示意。
不同于“谁教谁”的非对称蒸馏统一框架通常把相机与激光雷达编码器放进同一个共享表征空间里联合优化。
这样更容易学到模态无关的特征一方面保留视觉的语义丰富性另一方面吸收点云的几何精确性为空间智能提供更完整、更稳的底座
空间智能发展趋势展望如果把 2020–2025 的方法放在一条时间线上会看到清晰的范式迁移早期更偏单模态自监督近几年明显涌现跨模态协同相机/LiDAR 互教与统一框架并进一步指向生成式世界模型。
图8代表性预训练方法的时间演进2020–2025。
这条时间线展示了自动系统表征学习范式的变化早期方法更多依赖单一模态的自监督学习例如只用激光雷达做对比学习从2023年左右开始跨模态协同明显升温出现大量以相机/激光雷达为核心的互补式训练以及更进一步的统一预训练框架最终把方向推向更强的生成式世界模型与更完整的空间智能能力与此同时“基础模型”的角色也在变化从提供可迁移的视觉先验逐步走向更统一的框架甚至把视觉、语言、动作整合进一个推理体系目标不只是识别对象而是模拟未来并规划行动。
一句话
总结这股潮流空间智能正在从“看懂现在”走向“想象未来”从“感知模块”走向“决策闭环”。
此外把空间智能的复杂表征练出来不是为了好看最终都要落在任务上常见的下游方向包括● 3D 感知检测、分割等让系统更稳定地理解“有哪些物体、它们在哪里”。
● 占据表达Occupancy把世界变成“哪里是空、哪里是实、哪里可能可通行”的空间表格或体素表示。
● 规划与开放世界 grounding把感知结果真正接到行动层支持更开放的理解与规划。
从“应用清单”里能看出一个信号空间智能的评价不再只看单项指标而越来越看它能不能支撑更长链路的任务闭环。
5.
总结聊到最后空间智能像一门综合课既要语义也要几何还得懂时间和因果。
但它的难点也非常现实数据规模与标注成本的矛盾仍在预训练是绕路也是必经之路。
多模态对齐、噪声、实时处理这些工程硬题会决定方法能不能从论文走到系统里。
更长远的方向是让系统具备更强的生成式预测能力并把世界建模与行动策略更紧地耦合起来。