核心内容摘要
Qwen3-ASR-0.6B企业落地:银行理财双录语音质检+合规关键词触发告警
Datawhale分享年度报告RoboChallenge当大语言模型在数字世界不断刷新人类认知边界一场关于 AI 如何“扎根”现实物理世界的革命正悄然进行。
今日全球首个具身智能大规模真机评测平台—— RoboChallenge 正式发布首份年度报告。
报告基于过去数月内2025 Q42026 Q1平台完成的数万次严苛远程真机测试以大规模、标准化、可复现的数据客观揭示了当前视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战为具身智能Embodied AI从实验室迈向通用化提供了不可或缺的“公正标尺”与行动指南。
从数字智能到物理智能行业呼唤“真实考场”近年来大语言模型与视觉语言模型取得了爆发式突破人工智能在感知、认知与推理层面展现出惊人潜力。
然而将这种能力可靠地赋予机器人使其在复杂多变的物理世界中理解、决策并执行任务仍是横亘在研究者面前的巨大挑战。
真机测试长期面临难以复现、缺乏统一标准、成本高昂等核心痛点导致模型评估往往停留在仿真环境或有限场景其“现实世界智能”成色几何始终难以量化评判。
RoboChallenge正是为破解这一行业共性难题而生。
作为由原力灵机与 Hugging Face 联合发起的全球首个大规模的真机评测平台RoboChallenge致力于构建一个开放、公正、可大规模复现的“真实考场”。
自 2025 年 10 月 15 日正式上线以来平台已成功部署了包含 UR
Franka Panda、ARX
ALOHA 等四大主流机型在内的 20 台真机集群构筑起一个稳定、多元的远程物理测试网络。
凝聚行业共识共建评测标准为推动真机评测走向规范化、标准化2025 年 11 月 20 日原力灵机与 Hugging Face 深度集结智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及 GOSIM共同成立了 RoboChallenge 组委会。
RoboChallenge 组委会成员这标志着真机测评迈入“开放共同体”协作的标准化新阶段将以行业共创模式为技术迭代注入强劲动能。
组委会致力于将 RoboChallenge 升维为行业级公共基础设施依托常态化运营机制推动评测从“分散实验”走向“共识共建”。
未来组委会将持续联动产学研各界构建透明、高效、可信的评测生态加速具身智能行业标准的沉淀与普及。
与此同时平台开源了覆盖 9 大类、共计 30 个标准化桌面任务的 Table30 数据集为全球研究者提供了公开、透明、高价值的训练与评测基准。
这一举措迅速获得全球具身智能社区的积极响应。
真机实测成风潮开源模型竞相上榜报告指出RoboChallenge 平台用户注册数与评测提交量在过去三个月呈指数级增长标志着“拥抱真机实测”已成为全球具身智能领域的核心共识。
平台已吸引了从顶尖研究院所、科技巨头到活跃开源社区的广泛参与。
目前由社区及个人开发者提测的多款开源模型如 Pi0 与 Pi
0.
RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜。
千寻智能与自变量团队更已完成了完整的 Table30 任务集评测。
此外极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型也正在平台进行紧锣密鼓的真机实测。
这种跨越国界与机构壁垒的广泛参与彰显了行业对于标准化、可比较真机验证平台的迫切需求。
报告核心发现机遇与挑战并存基于对海量真机测试数据的深度分析RoboChallenge 年度报告揭示了以下核心发现与亮点观察
评测热度飙升真机验证已成刚需平台活跃度指数级增长证实 RoboChallenge 已成为检验 VLA 模型物理世界能力的权威试金石。
活跃用户地域分布显示出 RoboChallenge 正在形成国际化生态
基础任务趋近成熟“Hello World”雏形初现“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率成为多数模型首选的验证性任务类似具身智能的入门“考题”。
复杂任务依然“屹立不倒”涉及多步骤序列决策、长期规划及精细灵巧操作的任务如“整理纸杯”、“制作三明治”等对当前所有参测模型而言仍极具挑战成功率长期处于低位部分甚至接近零。
这清晰划定了当前技术的能力前沿。
榜首模型成功率约 50%前路仍长当前在 Table30 评测集上表现最佳的模型其整体成功率也仅在 50% 左右。
这既体现了现有模型的进步也充分说明了 Table30 任务集设计的挑战性与现实价值表明具身智能在通用能力上仍有巨大提升空间。
RoboChallenge官网首页总榜仅显示 Top 8 截图日期
2025.
1.
VLA模型仍在攻克人类的本能级操作。
实测数据显示参测模型虽具备较强的指令语义理解能力呈现移动趋势但在精细操作任务中成功率不足 15%。
这种现象在 RoboChallenge 平台上沉淀了大量真机失败数据这份公开的“错题集”可作为模型迭代优化的关键参考。
社区志愿者与具身智能企业通过实战评测不仅探明了多维任务下的模型边界更沉淀了关键的技术洞察与工程经验。
这些实战的洞察和发现为 RoboChallenge 的迭代提供了重要参考正凝聚行业合力共同加速具身智能“GPT-
5时刻”的到来。
展望未来拓展场景深化协作共创价值RoboChallenge年度报告的发布标志着具身智能真机评测进入了以数据驱动、标准共建的新阶段。
但这仅仅是序章。
展望未来RoboChallenge 将持续迭代引入更多机器人本体类型拓展至更多元化、更贴近真实工业与家庭需求的场景评测集并设计更具挑战性的任务。
平台还将探索分布式真机评测机制进一步扩大测试规模与效率。
“我们的愿景是与全球社区并肩前行”RoboChallenge组委会表示“通过构建和维护这个最真实、最开放的具身智能‘考场’我们期望不断降低真机验证的门槛让每一次失败都转化为进步的阶梯共同推动具身智能技术突破‘最后一厘米’的障碍最终在真实的物理世界中创造切实、普惠的价值。
”查阅RoboChallenge年度报告请点击“阅读原文”