虚拟仿真数据正在推动物理AI在企业环境中的发展,以AI2的MolmoBot项目为代表的倡议引领着这一趋势。
指导硬件与真实世界交互历来依赖于成本高昂且手动收集的演示数据。构建通用操作智能体的技术提供商通常将广泛的真实世界训练视为这些系统的基础。
从一些背景情况来看,像DROID这样的项目包含了在13个机构收集的76000个远程操作轨迹,大约代表350小时的人工工作量。谷歌DeepMind的RT-1需要人工操作员在17个月内收集130000个episodes。这种对专有手动数据收集的依赖推高了研究预算,并将能力集中在少数资源充足的工业实验室内。
"我们的使命是构建能够推进科学并扩展人类发现能力的AI,"AI2首席执行官Ali Farhadi表示。"机器人技术可以成为一种基础性的科学仪器,帮助研究人员更快地推进工作并探索新问题。为了实现这一目标,我们需要能够在真实世界中泛化的系统,以及全球研究社区可以共同构建的工具。展示从仿真到现实的迁移是朝着这个方向迈出的重要一步。"
Allen人工智能研究所(AI2)的研究人员提供了一种不同的经济模型,推出了MolmoBot——一个完全基于合成信息训练的开源机器人操作模型套件。通过在名为MolmoSpaces的系统内程序化生成轨迹,该团队绕过了对人工远程操作的需求。
配套的数据集MolmoBot-Data包含180万个专家操作轨迹。该数据集通过将MuJoCo物理引擎与积极的域随机化相结合而产生,改变物体、视角、光照和动力学参数。
"大多数方法试图通过添加更多真实世界数据来缩小仿真到现实的差距,"AI2 PRIOR团队主管Ranjay Krishna说道。"我们采取了相反的策略:当你大幅扩展仿真环境、物体和摄像头条件的多样性时,差距就会缩小。我们的最新进展将机器人技术的约束从收集手动演示转向设计更好的虚拟世界,这是我们可以解决的问题。"
使用100个英伟达A100 GPU,该流水线每GPU小时创建大约1024个episodes,相当于每小时墙上时钟时间产生超过130小时的机器人体验。
与真实世界数据收集相比,这代表了近四倍的数据吞吐量,通过加速部署周期直接影响项目的投资回报。
MolmoBot套件包括在两个平台上评估的三个不同政策类别:彩虹机器人RB-Y1移动操作器和Franka FR3桌面机械臂。主要模型基于Molmo2视觉语言骨干网络构建,处理多个时间步的RGB观察和语言指令来指导动作。
对于资源受限的边缘计算环境,研究人员提供了MolmoBot-SPOC,这是一个参数较少的轻量级Transformer策略。MolmoBot-Pi0使用PaliGemma骨干网络来匹配Physical Intelligence的π0模型架构,允许直接性能比较。
在物理测试中,这些策略展示了对涉及未见物体和环境的真实世界任务的零样本迁移,无需任何微调。
在桌面抓取和放置评估中,主要的MolmoBot模型达到了79.2%的成功率。这超过了在广泛真实世界演示数据上训练的π0.5模型,后者达到了39.2%的成功率。对于移动操作,这些策略成功执行了接近、抓取和在整个运动范围内拉动门的任务。
Q&A
Q1:MolmoBot是什么?它有什么特别之处?
A:MolmoBot是由AI2开发的开源机器人操作模型套件,其特别之处在于完全基于合成虚拟数据训练,而非传统的昂贵人工演示数据。它通过MolmoSpaces系统程序化生成操作轨迹,包含180万个专家操作轨迹的数据集。
Q2:MolmoBot的性能表现如何?
A:在物理测试中,MolmoBot展示了出色的零样本迁移能力,无需微调就能处理未见物体和环境。在桌面抓取任务中,主要模型达到79.2%成功率,显著超过基于真实数据训练的π0.5模型的39.2%成功率。
Q3:虚拟仿真数据相比真实数据有什么优势?
A:虚拟仿真数据具有成本效益和规模优势。AI2的方法代表近四倍的数据吞吐量,每GPU小时产生1024个episodes,相当于每小时产生130小时机器人体验,大大降低了研究成本并加速了部署周期。