核心内容摘要
Git-RSCLIP在C++环境下的高性能部署指南
快速了解部分基础信息英文
题目: THE GREAT MARCH 100:100 DETAIL-ORIENTED TASKS FOR EVALUATING EMBODIED AI AGENTS
时间:
2026.
机构: ISJTU, SII, RHOS.ai, Robbyant, Antgroup
3个英文关键词: Robot Learning, Task Design, Evaluation Benchmark1句话通俗
总结本文干了什么事情本文提出了一个名为“Great March 100 (GM-
”的机器人学习评测基准包含100个精心设计的、涵盖长尾行为的任务旨在解决现有评测任务过于单
无法全面评估机器人智能水平的问题。
研究痛点现有研究不足 / 要解决的具体问题现有的机器人任务数据集和评测标准往往只关注“拿起并握住”等常见高频任务缺乏对复杂、罕见的“长尾任务”的覆盖导致模型存在严重偏差且难以在不同方法间进行公平、全面的性能区分。
核心方法
关键技术、模型或研究设计简要利用大语言模型Qwen3结合人类物体交互原语HOI和物体可供性Affordance自动生成候选任务再通过LLM与人类专家混合筛选最终构建了包含100个高挑战性任务的基准数据集并在真实机器人平台上收集了
3万条轨迹数据进行验证。
深入了解部分相比前人创新在哪里视角转变不依赖人类主观的实用性判断而是基于物理常识和低级操作知识How-level affordance来生成任务。
长尾覆盖专门针对现有数据集中缺失的复杂、罕见行为进行系统性设计增加了任务的多样性和挑战性。
社区驱动不追求绝对中心化的物理测试环境而是建立开源平台鼓励社区上传结果和视频证据通过集体监督进行长期评估。
解决方法/算法的通俗解释本文并不是提出一个新算法而是建立了一个“机器人奥运会”的比赛项目库。
它利用AIQwen3学习人类如何与物体互动的原理自动脑暴出各种各样的任务比如“把垃圾扔进垃圾桶”然后通过AI和专家筛选出最难、最能考验机器人能力的100个任务作为标准考题。
解决方法的具体做法数据收集与分析分析现有任务如Agibot, Open X-Embodiment去除重复项发现任务多集中在“抓取”等常见动词。
任务生成利用Qwen3模型输入人类交互原语如“切”、“倒”让模型列举相关物体并生成具体任务描述。
筛选与优化先用LLM自动评分机器人的可执行性再由5位人类专家进行最终筛选确保任务在现有硬件下可行且适合遥操作收集数据。
数据集构建在Agilex Cobot Magic和Dobot Xtrainer两个平台上收集了超过
3万条轨迹数据。
基于前人的哪些方法基于人类物体交互研究如HAKE、PaStaNet、OCL中的交互原语和物体可供性概念以及前人的任务列表如Agibot和π 0 .5 \pi_
5π0.5的评测任务作为基础进行扩展和语义分析。
实验设置、数据、评估方式、结论实验设置使用Agilex Cobot Magic双臂移动平台和Dobot Xtrainer双臂固定平台。
数据收集了13,000多条遥操作轨迹每个任务包含100条训练轨迹和30条固定测试轨迹。
评估方式成功率 (SR)任务完全完成的比例。
部分成功率 (PSR)子任务完成的比例针对复杂任务。
动作预测误差预测动作与真实动作的均方误差MSE。
结论GM-100任务具有可行性但极具挑战性能有效区分不同VLA模型如Diffusion Policy,π 0 \pi_0π0,π 0 .5 \pi_
5π0.5的性能。
实验显示π 0 .5 \pi_
5π0.5在动作预测精度和物理任务成功率上均表现最佳。
提到的同类工作Open X-Embodiment, Agibot, BridgeData V2, RH20T, DROID, RoboCOIN, RoboMIND, RT-2, OpenVLA, GR00T。
和本文相关性最高的3个文献HAKE(Yong-Lu Li et al.): 提供了人类活动知识引擎是本文任务生成中交互原语的重要来源。
Agibot(Qingwen Bu et al.): 作为现有的大规模操作数据集是本文进行任务设计对比和分析的基础之一。
π 0 .5 \pi_