核心内容摘要
Csharp学习笔记——字典、泛型、文件读取、委托和事件
在过去一年里具身智能几乎成了 AI 领域最“好看”的方向之一。
机器人叠碗、做咖啡、整理桌面的视频在社交平台上高频刷屏配上“通用智能已来”的标题极具冲击力——但在热闹之外一个始终被回避的问题是这些模型换一台真机、换一个摆放位置、连续跑上十次还能成功吗RoboChallenge 的出现正是为了回答这个并不讨喜、却极其关键的问题。
作为由原力灵机 Dexmal 与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台RoboChallenge 自 2025 年 10 月上线以来已部署 UR
Franka、ARX
ALOHA 等主流机型在内的 20 台真机测试集群开源了涵盖 30 个标准化任务的 Table30 数据集736GB并已累计执行超过 4 万次真机测试Rollouts。
基于此上周五 RoboChallenge 正式发布了其首份年度报告2025 Q4 - 2026 Q1——这份基于超 4 万次真实机器人测试、涵盖 30 个标准化任务的数据复盘首次以规模化、可复现的实证数据为炙手可热的具身智能领域提供了一份难得的“硬核体检报告”。
报告地址https://robochallenge.ai/news
真机、真数、真透明为何 RoboChallenge 能成为“标尺”与依赖仿真或受限环境的测试不同RoboChallenge 的核心在于“真”。
在 RoboChallenge 之前具身智能评测长期面临三大难题难复现、无统一标准、成本高昂——RoboChallenge 对此给出的解法是一套“反直觉但务实”的组合拳首先是真机而非仿真。
RoboChallenge 已部署 UR
Franka、ARX
ALOHA 四类主流机型共 20 台真实机器人覆盖单臂、双臂与不同构型。
所有榜单结果均来自真实物理环境下的执行而非理想化的模拟器因此模型必须直面传感器噪声、执行误差、物体微小偏移等现实问题。
其次是对偶然性的系统性消解。
在 RoboChallenge 中每一个任务都必须进行 10 次独立真机测试最终以平均成功率计分。
同时平台引入“成功率Success Rate 过程分Progress Score”的双指标体系不仅看是否完成任务也量化模型在失败前推进到了哪一步。
这一设计有效避免了“一次成功即上榜”的 Demo 式偏差。
最后是对人为因素的约束。
真实评测中操作员对物体的摆放位置本身就是隐性变量。
RoboChallenge 通过“视觉输入匹配”机制在测试前叠加半透明参考图像要求初始场景与训练分布高度一致从源头上消除了所谓的“甜点区域”问题。
这让不同模型真正站在同一起跑线上竞争。
这一整套机制几乎从制度层面“禁止”了只为好看而存在的模型表现。
一个“尚待提高”的数字榜首模型成功率在 50% 左右从 RoboChallenge 总榜来看最直观、也最具冲击力的结论是目前表现最佳的模型在 Table30 任务集上的平均成功率仅为 51%。
RoboChallenge 首页总榜仅显示 Top8截图日期
2026.
23这并非个别模型的问题而是整个阶段性技术水平的真实写照。
Table30 覆盖了 30 个标准化桌面任务横跨刚体操作、精细抓取、软体形变与长序列任务对模型提出的是端到端的综合能力要求。
与此同时榜单还呈现出一个值得注意的结构性现象多数模型的过程分显著高于最终成功率。
以 Top 3 模型为例其平均成功率集中在 35%–51% 区间但过程分均超过了 55——这说明在大量失败任务中模型并非“完全失效”而是已经完成了相当一部分关键步骤只是在某个环节出现了不可恢复的偏差。
这恰恰体现了真实物理世界的残酷性与数字空间不同现实任务往往不允许回滚重来一次微小失误就可能导致整个任务失败。
报告核心洞察能力图谱与“叹息之墙”通过对 Top 模型在单任务维度上的表现分析RoboChallenge 将 Table30 任务划分为三个清晰的能力梯队。
1第一梯队“Hello World”级任务。
以堆碗stack_bowls为代表这类任务在头部模型中已接近满分Top 3 模型成功率均达到 100%。
它们更多承担的是“入场测试”的角色用于验证模型是否具备基本的视觉感知与抓取能力而不再具备足够的区分度。
2第二梯队工程能力的分水岭。
如放鞋上架、将杯子放到杯垫、寻找指定目标等任务Top 1 模型成功率可达 90%但对感知稳定性、抓取精度与控制策略提出了更高要求。
这一层开始明显拉开模型之间的差距工程细节与系统稳定性成为关键变量。
3第三梯队当前阶段最典型的“能力悬崖”。
在 Table30 中这一梯队任务的共同特征是成功与失败之间几乎不存在缓冲区。
在按三个按钮、打开水龙头等任务中往往只有某一特定模型能够达到 100% 成功率而后续模型成绩迅速下滑。
这类任务高度依赖模型在特定能力维度上的深度优化也暴露出当前 VLA 模型在能力分布上的明显不均衡。
除了以上三大梯队在 RoboChallenge 的任务热力图中还有数个任务出现了“全模型成功率为 0%”的情况——RoboChallenge 官方将这类任务形象称为“叹息之墙”。
以“制作素三明治”为例该任务要求严格的操作顺序与双臂协同。
但在实测中模型往往在最初的抓取阶段就出现数量或位置错误一步失误直接导致全局失败几乎没有容错空间在“给盆栽浇水”任务中报告显示模型能完成前序步骤却在最后“忘记”将水壶归位这直指长时序任务中的状态保持与逻辑连贯难题在软体操作任务如“叠抹布”中即便是表现最好的模型成功率也仅有 30%说明柔性物体在受力后的不可预测形变至今仍是具身智能领域公认的最大难题之一。
RoboChallenge 年度报告中还明确指出单任务模型与多任务模型之间也存在巨大性能鸿沟。
以同一基座模型为例报告给出的数据显示Pi
5 在单任务设定下的平均成功率为
4
67%而在多任务设定下仅为
1
67%Pi0 的对应差距也同样接近 20 个百分点——这清晰表明开发真正通用的“机器人大脑”而非针对单项任务的“熟练工”仍是核心挑战。
跟网上的 Demo 相比RoboChallenge公开的这些失败案例和数据并不“好看”但也因此构成了最有价值的资产一个公开、可复盘的具身智能错题集。
指数级增长的数据背后真机评测不再是尝试而是刚需如果说榜单成绩揭示的是模型能力的“高度”那么平台使用数据反映的则是整个行业的“重心迁移”RoboChallenge 在上线后的短短 4 个月内评测热度呈现出明显的指数级增长趋势。
截至报告统计周期结束RoboChallenge 已累计核发 209 个提测资格其中 82 位开发者完成了本地推理环境搭建并成功提交真机评测从申请到实际提测的转化率达到
3
2%。
其中除了上文提到的 Pi0 和 Pi
5不仅 RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜千寻智能与自变量团队也完成了完整的 Table30 任务集评测极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型更是正在 RoboChallenge 平台进行真机实测。
更直观的信号来自真实执行规模。
RoboChallenge 平台累计完成的真机测试已达 41969 次单日最高提交评测 181 次 Runs单日真机执行峰值达到 834 次 Rollouts——这不仅验证了 RoboChallenge 平台在高并发场景下的系统稳定性也反映出一个事实越来越多模型正在把“是否能通过 RoboChallenge 真机测试”作为自身能力验证的必要条件而非加分项。
从地域分布来看这种需求也并非局限于单一市场。
当前 RoboChallenge 的活跃用户中中国开发者占比
5
3%美国
2
0%新加坡、日本及阿联酋等地区也持续有团队参与评测。
如果说 ImageNet 曾经统一了视觉任务的评估方式那么 RoboChallenge 正在尝试为物理世界建立一套可比较、可复盘、可持续演进的验证坐标系。
坦白说RoboChallenge 给出的答案可能并不令人兴奋没有 90% 的通用成功率没有“一次训练通吃任务”甚至没有稳定完成“做一份三明治”。
但恰恰是这些不完美的数据构成了具身智能真正向前的方向。
当行业逐渐告别 Demo 滤镜开始正视真实物理世界的复杂性RoboChallenge 所提供的不只是榜单而是一面镜子——它让所有人第一次站在同一把尺子前看清自己离“通用具身智能”到底还有多远。
RoboChallenge年度报告下载https://robochallenge.ai/news