开源发布 | 乐聚 LET 数据集正式捐赠至 OpenLoong 开源社区,遵循国地中心统一数据标准
创始人
2025-11-25 20:46:01
0

—— 行业携手,共建开放可信的数据基础设施

随着人形机器人技术的突破不断加速,高质量、多模态、结构化数据已成为推动模型能力提升及产业走向规模化应用的核心要素之一,为支撑这一发展方向,OpenLoong 开源社区积极推进高质量数据资源的开放共享,吸引行业伙伴共同建设统一的数据体系。

近日,乐聚智能正式将自主构建的 LET 数据集捐赠至 OpenLoong 开源社区,为社区补充了一套覆盖真实作业场景的重要数据资源。该数据集规模大、结构规范、场景丰富,具备突出的工程化与研究价值,将为国内人形机器人研发提供有力支撑,它的加入不仅体现了行业对统一数据规范与开源治理模式的认可,也标志着 OpenLoong 数据生态建设进入了新的阶段。

▍LET 数据集:内容构成与数据体系概览

LET 数据集由乐聚智能与合作团队联合构建,是国内少有的面向真实作业场景的全尺寸人形机器人真机数据集,它基于乐聚夸父系列全尺寸人形机器人进行统一采集,覆盖真实作业链路,规模超过 60,000 分钟。

• 任务场景丰富

LET 数据集在场景覆盖上跨越工业、商业零售和日常生活三大领域,包含汽车工厂、快消场景、酒店服务、3C 工厂、生活服务和物流共六类真实生产与服务环境,并在此基础上构建了 31 项任务和 117 种原子技能,形成结构清晰的任务体系,这些任务目标清晰、流程有约束,适用于训练机器人在多场景、多步骤、多目标条件下进行学习与推理。

• 数采链技术创新

与此同时,数据集同步记录头部与双腕视觉流,并提供 RGB、深度、关节状态和末端执行器状态等多模态信息;通过组帧技术将传感器时间误差压到 10 毫秒以内,再以视觉伺服闭环机制对齐到统一抽象空间,使数据一致性超过 90%。

• 多模态数据融合

在标注方面,复杂任务被拆解为语义明确的原子动作步骤,配有时间轴、自然语言描述及对象、技能、场景等语义标签,便于模型理解任务结构与动作逻辑,为行为理解、策略学习和技能组合打下基础。同时,数据集还配套数据转换、模型训练、仿真测试与真机部署工具链,为研究人员提供从数据到算法再到验证的完整流程,提升整体使用效率。

部分任务示例包括:

商超售卖↓

衣服收纳↓

垃圾回收分类↓

LET 数据集为 OpenLoong 带来了行业中极具代表性的一套结构化资源,为社区的开源生态补充了关键的真实世界数据资源,它的加入将推动行业在任务建模、技能学习与策略验证等方向展开更深入的研究,同时也为开发者提供了可用于性能验证的高质量样本。

▍建设行业可信赖的数据规范体系

当前,人形机器人正在加速从实验室走向真实应用场景,产业链对高质量数据集的需求不断提升,但行业内存在数据来源分散、数据格式各异、数据结构不统一等共性问题,既降低了数据集质量,限制了模型能力的提升,又降低了跨机构协作效率。因此,构建体系化数据标准规范数据全生命周期管理过程是促进高质量数据集流通、激活人形机器人数据价值的必由之路。

遵循国家地方共建人形机器人创新中心(以下简称“国地中心”)的数据采集、数据处理等标准可以从源头确保数据质量与可用性,为行业提供标准化、易复用的数据资产。为了确保数据在高度一致性、可复用性和长期可维护性等方面满足要求,国地中心建立了一套覆盖数据采集、数据处理、数据质量审核和版本管理的标准体系,覆盖数据全生命周期,使得不同来源的数据在 OpenLoong 开源社区上以格式一致、标注清晰的形式呈现。作为国家级创新中心,国地中心始终致力于推动产业标准化进程,携手生态伙伴共建训练场和数据标准生态,累计主导或参与国际标准、国家标准和行业标准 60 余项;同时,建设并维护具身智能数据集开源平台,与行业共享标准化成果。2025年9月,国地中心申报的“上海虚实融合具身智能训练场标准化试点”获批公示,数据是具身智能训练场的核心驱动之一,具身智能数据标准的编制与应用验证是未来开展国家标准化试点的重要任务之一。

作为开放原子开源基金会孵化及运营的重点项目,OpenLoong 依托国地中心的建设经验,持续推进共享型数据框架的构建,以开源方式推动数据的规范化组织与复用,为行业提供稳定的数据底座。LET 数据集的捐赠进一步扩充了社区的真实场景数据储备,为行业提供更具代表性的训练样本,也为模型能力的持续提升奠定了基础。未来,格式统一、标注规范、高质量的数据集将成为人形机器人产业的重要支撑,提升人形机器人行业的研发效率与协作水平。

▍OpenLoong 数据生态持续扩展,共建共享加速行业协同

LET 数据集现已正式捐献给 OpenLoong 开源社区,并可在社区网站上下载使用。

作为 OpenLoong 人形机器人全栈开源项目的重要组成部分,该数据集将在开放原子开源基金会的孵化下持续运营与维护,稳定更新,为行业提供系统化的真实场景数据资源,同时也体现了企业与开源社区在推动数据开放与行业协同方面达成的深层共识。

随着越来越多的企业、高校和科研机构加入数据贡献,OpenLoong 的数据生态正逐步形成覆盖基础能力训练、任务执行、多场景研究和真实环境验证的多层次体系,社区也将持续强化数据基础设施建设,为行业提供统一可靠的技术支撑。

OpenLoong 开源社区始终坚持开放共享的原则,欢迎更多行业伙伴加入数据共建。社区鼓励具备真实作业场景、具有代表性任务链路或拥有多模态采集能力的企业、高校与研究团队贡献高质量数据,共同完善人形机器人领域的开源数据体系,同时也将持续为贡献者提供规范透明的托管环境,通过开源机制确保数据被充分利用。随着数据规模不断增长,OpenLoong 将与行业共同推动多场景、多任务、多模型的协同研究,促进形成更加开放、健康的产业生态。

相关内容