
数据集介绍
ARIO 是鹏城实验室多智能体与具身智能研究所、南方科技大学、中山大学联合发布的新标准与统一数据集,旨在为通用、多功能的具身智能体提供大规模、标准化的训练数据。该数据集的核心创新在于定义了统一的数据格式与标准,以兼容不同机器人平台、不同帧率、不同模态的数据,真正实现“All Robots In One”。
- 任务时序长度:不定,涵盖从简单单步操作到复杂长程任务的完整范围
- 动作可执行性:提供统一格式记录的不同机器人低级控制参数,可直接用于策略学习与真机部署
- 时序连续性:是,数据包含精确时间戳对齐的多模态序列,确保视觉、力觉、听觉、触觉等信息在时间上严格同步
- 语言控制:是,数据集包含文本模态,支持语言条件的策略训练与任务描述
主要特点
- 统一数据标准:定义了兼容多机器人、多帧率的统一数据格式,解决了不同平台之间的异构性问题,是当前开源数据集中标准化程度最高的之一。
- 超大规模:总计超过 300 万条演示轨迹,涵盖 32 万+ 个任务,258 种场景,规模在同类数据集中处于领先地位。
- 三源融合:数据来源于三大渠道:
- 真实采集:使用 Cobot Magic、Songling、Dataa Cloud Ginger XR-1 等多款真机平台采集
- 仿真生成:基于 MuJoCo、Habitat、Isaac Sim 等仿真引擎生成
- 现有数据整合:转换整合 Open X-Embodiment、RH20T、ManiWAV 等开源数据集
- 多模态丰富:数据包含2D 图像、3D 点云、声音、文本、触觉等多种模态信息,是少数同时包含触觉与听觉的大规模数据集。
- 跨本体多样性:通过统一格式整合了多种机器人平台的数据,支持跨本体的策略学习与泛化研究。
- 灵活的开源协议:自采数据与自研仿真数据采用 CC-BY 4.0 或 MIT 协议,整合数据遵循原项目的许可协议。
数据来源
- 发布方:鹏城实验室多智能体与具身智能研究所、南方科技大学、中山大学
- 数据形式:真实采集 + 仿真生成 + 现有数据整合(三源融合)
- 自采平台:Cobot Magic、Songling Cobot Magic、Dataa Cloud Ginger XR-1 等
- 仿真平台:MuJoCo、Habitat、Isaac Sim、SeaWave
- 整合数据集:Open X-Embodiment、RH20T、ManiWAV 等
- 数据托管:OpenI 启智社区(https://openi.pcl.ac.cn/ARIO/ARIO_Dataset)
规模
- 演示轨迹总数:超过 3,000,000 条(303 万+)
- 任务数量:321,064 个
- 场景数量:258 种
- 整合数据来源:
- Open X-Embodiment:约 8 万 episodes
- RH20T:约 3 万 episodes
- ManiWAV:1,297 episodes(含声音数据)
- HM3D 物体导航:664,241 episodes
- 仿真数据(UR5 系列):多任务 × 50 episodes × 多配置
- 自采真实数据:PCL_CollectInReal (2,414 episodes)、Songling (70 episodes)、SeaWave (800 episodes) 等
- 数据模态:2D 图像、3D 点云、声音、文本、触觉
- 数据格式:统一标准格式,精确时间戳对齐
应用场景
- 通用具身策略学习:利用统一格式数据训练跨本体、跨任务的通用模型
- 多模态感知融合:融合视觉、触觉、听觉、力觉的复杂操作任务
- 仿真到真实迁移:利用仿真子集与真实子集组合,研究 Sim2Real 迁移
- 模仿学习与行为克隆:利用大规模演示轨迹训练策略模型
- 跨数据集基准测试:基于统一格式,方便在不同数据集上公平比较算法性能
官方网址