核心内容摘要
VibeVoice多音色对比评测:男声女声及跨语言合成质量全面展示
当越来越多的机器人从实验室的受控环境走向工厂、家庭等开放复杂的真实世界它们还能像在实验室里面一样“灵巧能干”持续稳定执行各种“活儿”吗具身智能独角兽Generalist AI在2025年11月推出Gen-0 引起业界震动。
其充分利用了数据工厂采集了 270000 小时的数据。
根据官方发布的内容其目前每周可以以10000 小时的速度继续采集。
此次发布给了行业一个宝贵的insight通过大规模真实机器人数据和持续训练可以推动具身模型向更通用的方向演化。
但同时也暴露了行业的一个“瓶颈”对于数据的需求远超我们的想象。
这便给真实世界的部署提出了更大的难题受困于更高的任务专精度要求以及离线数据采集方式的边际效益递减。
那么是否有这样一套策略可以支持机器人群“随到随学”随时调整即真实部署环境中把数据回流、模型后训练和策略更新组织成一个长期可运行的工程系统让更多的机器人在真实环境中不会因为“没见过没练过”而宕机。
2026年1月初智元具身研究中心率先给出系统性解决方案——SOPScalable Online Post-training在线后训练系统这一创新架构首次在物理世界的VLA后训练中将在线学习、分布式架构与多任务通才性深度融合打破了传统离线单机训练的局限让机器人集群得以在真实场景中持续进化实现个体经验的群体高效复用真正将“规模”转化为“智能”为通用机器人的落地探索开辟了全新路径。
原文链接对话智元机器人首席科学家罗剑岚未来机器人在真实世界大规模部署将会面临哪些挑战有了这套系统意味着机器人在进入更多元的真实场景后不单单只靠先前实验室习得的“经验”而是能在真实场景中根据与环境的交互即时校准和调整自身行为初步摆脱强“定制化出厂”逐步迈向“因地制宜”。
以下内容来自1月7日智元机器人SOP方案首发现场对罗剑岚博士的采访。
SOP的系统架构是怎么样的Q我理解SOP采用Actor-Learner执行器-学习器的架构是不是一个机器人犯错所有机器人能立马学会避免这个错误罗剑岚直觉上这样直觉上这是非常接近的。
如果更严谨地讲它不是立刻变聪明而是这个错误被记下来传到共享的池子里被记录然后回传进入训练闭环。
在云端会跑相应的算法去处理这些错误再下发给所有机器人我们现在几分钟之内会更新一次。
Q就是云端相当于是后台的技术人员在帮机器人解决这些问题而不是机器人一起想怎么解决这个问题罗剑岚云端是个异步式的架构云端在跑算法机器人的数据回传到云端云端在跑后训练算法比如强化学习的算法等。
它会自动用算法去处理这些错误不是用人处理这些错误。
Q请您用通俗易懂的语言解释一下咱们从单机离线到分布式在线的系统化跨越SOP系统在其中起到了什么作用对于机器人掌握的叠衣服柔性物体精细化操作的问题解决了哪些过去难以突破的技术瓶颈罗剑岚我先回答第二个问题它的核心技术瓶颈具体来说是三点。
SOP是一个系统、是一个框架在系统层面把执行和学习真正耦合起来。
具体来讲核心技术瓶颈是三点。
一是非常低延迟的在线反馈机器人犯错以后需要纠正并尽快反映到模型里。
二是分布式数据的多样性和一致性。
多机器人并行采集的时候会经历各种各样不同的场景要稳定获取高质量的数据经验。
第三点是最重要的一点SOP保证了它的通用性不退化。
叠衣服、叠纸盒子、商超里500多种物体补货、上货成功率很高用的都是一个模型。
而之前的工作用一个通用 VLA视觉-语言-动作模型在单个场景里微调overfit过拟合到那一个场景上机器人就会把之前的任务给忘掉。
而我们这个不会我们这是一个通用且泛化的模型可以讲它是一个通用的专才。
他提升某一个任务表现的时候不会牺牲掉整体模型的泛化能力。
QSOP是分钟级甚至秒级回流。
您认为未来部署过程中算力、带宽和部署成本会不会成为规模化落地的瓶颈制约呢罗剑岚这是个好问题。
这也是我们做SOP第一天就考虑的问题就是要有一套非常鲁棒、健壮、可扩展的软件工程infra。
这套系统的软件工程非常鲁棒往里面加一台机器人、十台机器人、一百台机器人理论上是没有区别的。
Q它怎么做到这么健壮的罗剑岚这是底层的数据结构和底层的replay buffer经验回放池在软件工程上的实践。
你问的问题是在基础设施方面还有没有挑战是有的。
有的机器人初创公司在做海底光缆是超大带宽的数据回流。
这些我们也在看就像刚刚回答另一位记者的提问需要软件算法创新也需要社会的基础设施可以部署机器人。
就像刚有因特网时网速只有几KB而现在网速很快。
当前众多研究人员谈“跨本体”而色变SOP会是他们的“福音”吗Q我问一下SOP系统会不会受到机器人内部本体硬件差别的影响呢罗剑岚SOP的设计核心正是为了解决这一痛点。
它支持多机器人、多本体的协同训练通过对数十台机器人的数据进行任务均衡采样能够有效隔离单一硬件的干扰从而提取出跨本体的“最大公约数”。
这种机制保证了模型不会被某类特定硬件“带偏”。
简单来说如果集群中有100台机器人即便其中一台噪声很大在其余99台机器人的数据对冲下该噪声的影响也可以忽略不计。
Q意思就是说机器人集群里有几种不同的机器人SOP系统也可以正常运行罗剑岚我们现在已经有这个结果了它是可以跨本体的但是在论文里我们没有把这个结果放出来。
我们用了自家机器人也用了别家的好几款机器人最后的结果是可以跨本体泛化我们下一个版本会放出来。
总体而言是三点。
接口表征标准化多机器人在云端统一并行在必要的时候也会引入轻量级的个体识别。
这个问题是SOP考虑的点。
SOP新机制上线会对当下数采模式产生哪些影响Q罗博您好SOP的新机制上线后原本的数采中心您觉得还有存在的必要吗因为现在是各个机器人联网学习的模式那数采中心的意义在哪呢罗剑岚SOP是一个在线后训练框架它需要有一个预训练模型数采中心的离线数据可以给它提供基础能力。
有了SOP之后在线部署能够大量造成数据回流去训练新的模型。
随着部署量越来越多积累的数据会越来越多后面的数据大头来自真实世界部署产生的数据。
我认为现在离线的数据中心是主力后面会变成冷启动就像汽车的发电机把发动机打着的那一下这还是很重要。
因为我们不可能直接去部署一个零成功率的模型在真实世界它要具备一定的基础能力才能通过SOP这套方法把它给拉起来。
Q我的理解未来数采中心承担的是出厂设置的角色是吗罗剑岚可以这么讲再补充一下。
预训练模型的能力等于出厂设置的能力。
随着部署机器人的数量越来越多数采中心提供的不是预训练模型的能力。
预训练数据的来源一开始大部分是数采中心因为现在还没有大规模部署到真实世界的阶段。
随着真实世界部署的机器数量越来越多真实场景回流的数据也会变成训练预训练的数据预训练模型会变得越来越强。
Q刚刚提到数采中心我们在边做边学、数据回流很通畅的话素材中心未来的重要性是不是会不断变低呢罗剑岚这取决于怎么定义数采中心刚刚讲的是现代数采中心的形态在一个工厂里有一堆机器人摆上桌开始采集数据对于这种形式技术能力会慢慢进化。
你也可以说在真实世界部署2万个机器人这也是数采中心。
就是真实世界是我们最大的数采厂所以我认为数采厂的定义会不断进化。
Q就是专门做一个模拟真实操作的素材厂后面会变少罗剑岚是的我认为会逐渐往真实世界去收敛。
SOP新机制会加速具身 Scaling Law 的到来吗Q对于SOP系统有什么规划呢比如当机器人的数量达到多大的量级我们可以通过SOP实现什么样的程度呢智元有这种规划吗罗剑岚我们2026年有一个很大的重点是在真实世界部署通用机器人目前业界还没有人做。
你说多大的数量我们论文里是几十台机器人。
今年我们会部署几个数量级以上的机器人真正找到机器人真实场景部署和真实场景落地的Scaling law。
Q你们对今年的量级有预估吗罗剑岚会比现在大几个数量级。
Q你们的技术博客提到多机采集可以阻止模型过拟合单机特定特征。
那么多机特征会不会反过来影响到模型的学习呢因为有不同的采集特征反而影响到数据的可用性或模型的学习呢罗剑岚这是好问题。
我部分同意你的观点我认为现在的AI或Learning学习算法给我们的启示是scale really matters规模至关重要就是数据的多样性和数据的规模至少在现阶段远比你在 narrow setting特定场景设置去 specifically create专门创建的数据会重要得多。
回答这个问题在多机和单机上本质问题是单一场景还是多个广泛场景我认为后者的数据越来越多对模型的鲁棒性和健康性有更大的帮助。
QSOP的提出是否意味着国内具身公司尤其是以智元为代表的具备对标Generalist Gen0相关工作的可能罗剑岚Gen-0 的
核心价值在于证明了一件事通过大规模真实机器人数据和持续训练可以推动具身模型向更通用的方向演化。
而 SOP 关注的是另一个同样关键的问题——如何在真实部署环境中把数据回流、模型后训练和策略更新组织成一个长期可运行的工程系统。
从这个角度看SOP 并不是简单“对标某一篇工作”而是让国内具身公司具备了参与这一代通用具身智能竞争的结构性条件。
最终能走多远取决于持续部署规模、真实世界数据质量以及系统能否在多年尺度上稳定演化。
如果SOP在各种场景下大规模推广了哪些新的商业模式会先跑出来Q这种在线后训练的架构如果逐渐成熟未来交付给客户的机器人交付的时候是已经成熟的产品还是交付的时候不是服务的结束而是会服务一到两年通过数据继续提升机器人的性能表现。
你认为哪种是最可能的商业模式呢罗剑岚就跟自动驾驶一样你买车回来以后它会不断更新版本一样模型会变得越来越好。
Q但是它跟车不一样因为现在还是辅助驾驶。
但是到了工厂里你的表现是70分我不可能满意不可能等你一年以后再提升到100分。
罗剑岚我刚刚讲了对于不同场景的适配梯度不一样工厂肯定不会先让它跑一年。
工厂是有一个成功率高的预训练模型因为它的场景相对结构化和固定。
然后短时间内我们微调时间很短就可以上线。
上线以后持续学习的机制是在的因为上线之后就像你用自动化设备过一段时间也得调整一次去适应新的情况。
当然这种情况在工厂里的频率比较低。
如果是商超或超市每天人来人往每天的情况不一样这个持续学习就是一个必要的措施。
但即便是如此也不代表我每分每秒都在学习。
特斯拉也不是每天在发版而是几个月发一次。
可以通过scheduling排期/调度做到用户没什么感知但真实的性能是在提升。
Q我理解SOP是越用越聪明一旦部署到机器人上机器人就自动进化的特性。
这种特性是否会改变机器人的销售或服务模式未来从出售机器人产品出售持续进化的服务能力呢罗剑岚我认为它会从卖硬件一次性交付到软硬件一体的持续服务。
用车举例现在对自动驾驶收软件费也接受了也愿意买因为它确实带来了很好的体验可能性也在持续提升。
当然今后还有一段路要走比如版本管理、安全措施、隐私合规等。
Q从行业应用角度来看这套SOP流程已经在很多任务中得到有效验证在工程制造、家庭服务或商用场景中这套SOP适配难度有什么差异或者说现阶段最容易落地的商业价值的场景落地是什么罗剑岚它难在不同的地方。
工业制造对泛化性的要求会少我们现在也在看一些工业制造的场景但是对整体的成功率和节拍、鲁棒性要求非常高否则会影响到线的产能。
家庭服务和商超对成功率和性能的要求没有工业场景那么苛刻。
但它是一个更加开放的场景长尾任务更多但它的任务风险可控。
我认为SOP在不同场景的适配难度存在明显梯度工业场景里的流程稳定、边界清晰责任、安全、工序划分得很明确。
我们把SOP引入到在线系统里面机器人在这种可控的环境里可以持续运行不断纠正失败模式能快速把成功率和节拍提升到可规模化的上线水平。
对于家庭场景实事求是地说我不指望SOP能立马覆盖一个家庭。
我认为这是一个逐步的过程。
就好像你有了预训练模型预训练模型出厂就不可能是最优秀的模型一样。
有了预训练模型再加上SOP以逐步扩展任务能力的方式去落地。
这是我认为这是未来有希望进入家庭的一种方式通过部署更多的机器人造成更多的数据回流训练更好的模型载体部署更多的机器人。
医疗护理的要求最高像合规、安全、可解释性的要求都很强。
在医疗护理的落地所以会先从辅助性或非关键决策的环境开始。
我认为现阶段最容易落地且明确产生商业价值的场景是工业制造和部分商业服务场景。
在工业方面我们已经有很多案例了。
这些商业场景比如商超和部分家庭我们今年都会慢慢铺开。
智元提出这套SOP的初衷未来如何进一步在真实世界落地呢智元会有哪些布局Q后续在工业和商业各种场景下如何实现具体的落地呢罗剑岚我刚才已经回答了这个问题我再简单讲一下。
工业场景短期之内是最有效的场景它有稳定的工序和生产流程用在线后训练提升成功率和节拍确保机器人能长时间地可靠运行。
商业场景既要保持高性能也不能丢掉泛化能力就要关注它在不同场景、门店等不同环境下的适应能力通过共享的经验。
因为机器人的经验数据是共享的来不断减少人工的介入。
不同的场景的差异SOP是个框架框架是统一的在任务的定义、监督上有一些小的适配差别。
我们做这个事的初衷是希望有一个通用、可拓展的框架不对场景做区分只是少量适配就是各种场景一套系统全部拉通。
整体原则是先在可控、可规模化的场景里把闭环跑稳然后再逐步拓展到更复杂的真实世界。
Q智元接下来是否会考虑向具身智能行业开放SOP框架或进行技术上的合作呢在具身智能的生态上智元有什么布局吗罗剑岚首先SOP不是一个封闭系统而是一种新的持续学习、在线学习、协同进化的方式。
智元从成立之初就坚持走生态开放的路线。
我们做了很多开源开放的硬件很多东西是开源的。
SOP这个工作当然也是希望跟更多的厂商一起共建。
在生态布局上我们愿意同生态伙伴一起做场景共建要部署真实机器人现在有些场景不是为机器人设计的。
所以需要我们共同定义这个场景的任务规范、流程、监督信号、边界等把SOP的闭环真正接入到业务流程里。
在这个层面我们很开放和大家一起去共建因为这不是某一家公司的事。
我们会开放一些SOP的关键模块和接口。
因为SOP是个框架任意的后训练算法和模型都可以接进来。
从长远来讲我们希望构建一个开放的机器人在线学习生态。
不同的机器人本体都可以接入让数据共享上传到云端一个大脑数据回传回来不断进化给大家使用。
如果我们能找到行业伙伴在各自擅长的场景中发挥优势我们是可以共同推动整个机器人行业从静态能力到动态进化的跨越。
Q2026年对于SOP落地应用的目标是什么有没有可量化的数据进行分享罗剑岚2026年我们考虑在真实世界大规模部署SOP是支撑这件事的基石。
工业、商业和家庭我们都会做出尝试。
刚刚有记者问我时间表我也给出了大概的时间表。
我们还在做相关工作有进展的话会第一时间跟外部分享。
Q您提到2026年会有一个量级的提升我们是第5000台下线。
您讲的提升我们布局在工厂、家庭、商业我们所有场景都会做SOP那这个量级的提升是针对5000台的量级提升吗罗剑岚我们定义部署态的作业智能在全球范围内还是比较少更多还是秀 demo 的状态。
我个人的一个梦想是希望今年在上海的罗森便利店和上海超市看到机器人在真正干活它是一个是部署态这是一个很大的规模。
你刚刚讲5000台的数字这是我们今年整体的出货量我们明年出货量会更多。
这也是我们做这件事的优势就是本体量很大部署量很大数据量也会很大。
Q所以我们的量级提升是基于5000台还是基于作业环境里的机器数量罗剑岚我们的出货量这是多个口径的统计数据我讲的是真正部署态的作业智能不是demo演示态在今年会有几个数量级的提升。
Q是会覆盖多个场景都会有比如罗森、商超是吗罗剑岚是的既有危险场景去提升生产力也会在大家看得见、摸得着的地方让机器人走进大家的生活。
Q我听下来是否可以这样理解SOP是机器人向真实世界迈入的第一小步是吗罗剑岚是的这是关键的第一步。
Q讲下场景的问题你刚才讲要面向商超和便利店场景这是后面的几步吗罗剑岚你是问接下来的第二步是什么吗Q是的。
罗剑岚第一步解决的是长期被忽略的问题就是如何把真实部署中的经验稳定地低延迟地转化为模型改进并且在多机器人多任务下可规模化运行。
如果这一步做不稳的话后面所有的探索都是空谈。
所以我们扎扎实实先做好一个系统把它跑稳。
在此基础上第二步的核心方向是三点。
一是在更开放场景的扩展在安全、可控的前提下。
因为现在更多是半结构化场景。
可管理的环境逐步走向更复杂、更开放的真实世界。
二是监督的进一步自动化现在还有人类的干预随着算法不断提升会减少对人类干预的依赖会引入更成功、更自动的建模算法。
三是持续学习能力的增强不断在学习新任务新场景同时避免遗忘已有的能力。
我认为这是符合产业落地规律的选择让在线学习真正可用可扩展的逐步从封闭、半开放、开放一步步去验证一步步去部署、扩展、落地的节奏。
Q你认为在SOP技术的赋能下您预判距离真正看到人形机器人进入家庭完成有价值的复杂工作还需要跨过哪些障碍你有没有一张时间表罗剑岚我认为家庭场景的话首先要数据隐私合规和数据回流我们要弄清楚怎么做这件事。
家庭场景的话和人类的交互更友好硬件要具备可靠性、安全。
成本和供应链的成熟因为家庭机器人太贵的话大家也买不起。
从时间来讲工厂和商场各种半结构化场景更早成熟家庭会慢一点。
但它的路径是清晰的如果我们能在工厂和商场验证这个闭环成立的话就能进入其他场景。
我在其他采访也一直这样讲先从可控任务集开始再慢慢扩大到开放、半开放、开放最后真正进入千家万户。
Q我问一个问题。
2025年机器人界的关键词是VLA视觉-语言-动作模型和世界模型。
罗博分享一下现在业内对机器人研究2026年的共识以及智元的看法。
罗剑岚2026年机器人领域的共识我不知道我能不能代表机器人领域我只能讲讲自己的观察。
我的观察是大家认为通用性不再是主要瓶颈当然通用性很重要部署中的任务集熟练度和可靠性才是决定机器人能否真正落地的关键。
过去几年时间大模型、VLA视觉-语言-动作模型、预训练有非常大的提升机器人对多任务、多物体、多本体、多指令的泛化。
一旦进入真实场景这是大家都在做但还没人真正做好的事。
机器人能否稳定、高效、长时间完成具体任务这是一个问号这非常高度依赖真实世界的训练闭环。
智元的判断2026年是机器人从会做很多事但每个事做得不太好走向把事情做好并落地的关键节点。
这要求学习范式从静态离线训练升级为部署学习再部署的整套数据闭环系统正是基于这个判断我们提出SOP系统级解决方案。
从重构训练范式到重塑机器人生命周期SOP的
核心价值在于让部署不再是技术迭代的终点而是更大规模智能学习的起点。
它通过“多机并行采集-云端集中训练-参数即时回流”的闭环既解决了真实世界部署中的稳定性与泛化性难题又为行业搭建了开放协同的进化生态。
随着SOP在工业制造、商业服务等场景的逐步落地以及跨本体适配能力的持续完善机器人将从“性能固定的标品”转变为“持续成长的生命体”。
未来在技术创新与生态共建的双重驱动下SOP必将推动更多机器人走进生产生活的各个角落让规模化、智能化的机器人应用成为现实开启人机协同的全新篇章。
具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π