核心内容摘要
新井佑美:那抹划过心间的纯氧,定义日系美学的极致温柔
摘要本报告对Figure AI最新发布的Helix 02系统进行技术分析。
该系统通过统一的全身体感网络首次实现了人形机器人在完整房间尺度下、长达数分钟的端到端自主操作任务标志着人形机器人从分离的动作控制向全身协调自主的重大转变。
系统概述与技术突破Helix 02是Figure公司迄今为止能力最强的人形机器人模型通过单一的神经控制系统直接从像素输入控制整个机器人身体实现了跨越整个房间的灵巧、长时程自主操作。
主要技术突破包括自主长时程移动操作系统能够执行长达四分钟的端到端自主任务如在整个厨房中卸载并重新装载洗碗机。
该任务整合了行走、操作和平衡无重置且无需人工干预被认为是人形机器人迄今完成的最长时程、最复杂的自主任务。
全传感器接入与全执行器输出系统将机载的视觉、触觉和本体感觉等所有传感器通过一个统一的视觉运动神经网络直接连接到每一个执行器。
基于人类数据的拟人全身控制所有功能由System 0实现这是一个基于超过1000小时人体运动数据结合仿真到现实的强化学习训练得到的全身控制器。
它用单一的神经先验模型替代了109,504行手动编写的C代码。
核心架构“系统2-系统1-系统0”三级协同Helix 02扩展了原有的“系统1-系统2”架构新增了一个基础层形成了三级紧密集成的协同架构。
1 系统0 (S
基于人类数据的全身控制基础模型功能定位作为物理实现的“骨干”负责在1 kHz高频下处理平衡、接触和全身协调。
训练数据使用了超过1000小时的关节级人体运动重定向数据。
架构一个包含1000万参数的神经网络输入为全身关节状态和基础运动输出1 kHz频率的关节级执行器命令。
它通过直接学习再现人类运动掌握了协调力量、调整姿态和在广泛行为中保持平衡的能力。
2 系统1 (S
全身视觉运动策略功能定位作为“快思考”层以200 Hz频率将感知包括所有传感器输入转化为全身关节目标。
输入与输出输入包括头部摄像头、手掌摄像头、指尖触觉传感器和全身本体感觉输出为对机器人全身腿、躯干、头、手臂、手腕及各手指的完整关节级控制。
新硬件支持首次整合了Figure 03机器人搭载的手掌摄像头和嵌入式触觉传感器。
手掌摄像头可在物体被头部摄像头遮挡时提供手内视觉反馈指尖触觉传感器能感知小至3克的力实现接触感知和力控抓取。
3 系统2 (S
场景理解与语义推理功能定位作为“慢思考”层负责处理场景、理解语言并为S1产生潜在目标语义潜变量。
能力升级现在可以规划更长、更复杂的语义指令序列例如“走向洗碗机并打开它”→“把碗拿到台面上”→“回到顶层架子拿起杯子”而无需指定低级动作细节。
关键性能演示
1 自主长时程移动操作在“厨房装卸洗碗机”演示中Helix 02展现了一系列关键能力约束下的移动能在手持易碎物品时稳定行走。
全身工具化使用在手被占用时能用臀部关抽屉、用脚抬起洗碗机门。
持续双手协调在整个任务中双手作为协调系统进行物品抓取、交接、堆叠和放置。
大动态范围控制同一神经网络能产生毫米级的手指精细运动和房间尺度的移动。
长时程顺序执行连续执行了61个移动操作动作并能进行隐式错误恢复。
2 基于触觉与手内视觉的灵巧操作新传感器模态解锁了四类前沿的灵巧操作任务拧开瓶盖需要双手协调、触觉调节的握力及扭矩控制。
从药盒中定位并取出药片依赖手掌级视觉反馈和触觉引导的精确抓取。
从注射器中精确推出5毫升液体需要基于触觉反馈的力控驱动及多指协调稳定。
从杂乱的盒子中拣选金属件需要鲁棒的视觉抓取选择并结合触觉确认在杂乱环境中的稳定接触。
结论与意义Helix 02代表了人形机器人控制范式的重大进步。
通过将全身控制统一到一个端到端学习系统中它解决了长期以来机器人学中“移动-操作”难以协调的难题。
该系统证明了基于大规模人类运动数据学习的全身控制先验模型S0能有效替代传统的手工编码控制器实现更稳定、自然的运动。
融合多模态感知尤其是触觉和手内视觉与全身控制能显著提升机器人在非结构化环境中执行复杂、灵巧操作任务的能力。
分层架构S2语义规划、S1感知-动作转换、S0高频稳定执行是实现长时程、可理解、鲁棒自主的有效路径。
尽管成果仍处于早期阶段但Helix 02为未来通用人形机器人在家庭和职场环境中的实际应用奠定了关键的技术基础。
其展现的“像素到全身”的连续自主控制能力是朝着构建真正实用、可靠人形机器人迈出的重要一步。