ARIO (All Robots In One, 2024) - 国家具身智能应用中试基地

国家具身智能应用中试基地

ARIO (All Robots In One, 2024)

2026-05-11 11:44

国内数据集混合来源单臂操作双臂操作导航中程任务长程任务跨本体视觉力觉/触觉听觉语言多模态通用研究含失败案例含力反馈含触觉含音频含语言指令统一格式开源工具链免费数据集

计费规则:

数据介绍

数据集介绍

ARIO 是鹏城实验室多智能体与具身智能研究所、南方科技大学、中山大学联合发布的新标准与统一数据集，旨在为通用、多功能的具身智能体提供大规模、标准化的训练数据。该数据集的核心创新在于定义了统一的数据格式与标准，以兼容不同机器人平台、不同帧率、不同模态的数据，真正实现“All Robots In One”。

任务时序长度：不定，涵盖从简单单步操作到复杂长程任务的完整范围
动作可执行性：提供统一格式记录的不同机器人低级控制参数，可直接用于策略学习与真机部署
时序连续性：是，数据包含精确时间戳对齐的多模态序列，确保视觉、力觉、听觉、触觉等信息在时间上严格同步
语言控制：是，数据集包含文本模态，支持语言条件的策略训练与任务描述

主要特点

统一数据标准：定义了兼容多机器人、多帧率的统一数据格式，解决了不同平台之间的异构性问题，是当前开源数据集中标准化程度最高的之一。
超大规模：总计超过 300 万条演示轨迹，涵盖 32 万+ 个任务，258 种场景，规模在同类数据集中处于领先地位。
三源融合：数据来源于三大渠道：

真实采集：使用 Cobot Magic、Songling、Dataa Cloud Ginger XR-1 等多款真机平台采集
仿真生成：基于 MuJoCo、Habitat、Isaac Sim 等仿真引擎生成
现有数据整合：转换整合 Open X-Embodiment、RH20T、ManiWAV 等开源数据集

多模态丰富：数据包含2D 图像、3D 点云、声音、文本、触觉等多种模态信息，是少数同时包含触觉与听觉的大规模数据集。
跨本体多样性：通过统一格式整合了多种机器人平台的数据，支持跨本体的策略学习与泛化研究。
灵活的开源协议：自采数据与自研仿真数据采用 CC-BY 4.0 或 MIT 协议，整合数据遵循原项目的许可协议。

数据来源

发布方：鹏城实验室多智能体与具身智能研究所、南方科技大学、中山大学
数据形式：真实采集 + 仿真生成 + 现有数据整合（三源融合）
自采平台：Cobot Magic、Songling Cobot Magic、Dataa Cloud Ginger XR-1 等
仿真平台：MuJoCo、Habitat、Isaac Sim、SeaWave
整合数据集：Open X-Embodiment、RH20T、ManiWAV 等
数据托管：OpenI 启智社区（https://openi.pcl.ac.cn/ARIO/ARIO_Dataset）

规模

演示轨迹总数：超过 3,000,000 条（303 万+）
任务数量：321,064 个
场景数量：258 种
整合数据来源：
Open X-Embodiment：约 8 万 episodes
RH20T：约 3 万 episodes
ManiWAV：1,297 episodes（含声音数据）
HM3D 物体导航：664,241 episodes
仿真数据（UR5 系列）：多任务 × 50 episodes × 多配置
自采真实数据：PCL_CollectInReal (2,414 episodes)、Songling (70 episodes)、SeaWave (800 episodes) 等
数据模态：2D 图像、3D 点云、声音、文本、触觉
数据格式：统一标准格式，精确时间戳对齐

应用场景

通用具身策略学习：利用统一格式数据训练跨本体、跨任务的通用模型
多模态感知融合：融合视觉、触觉、听觉、力觉的复杂操作任务
仿真到真实迁移：利用仿真子集与真实子集组合，研究 Sim2Real 迁移
模仿学习与行为克隆：利用大规模演示轨迹训练策略模型
跨数据集基准测试：基于统一格式，方便在不同数据集上公平比较算法性能

官方网址

数据集：https://openi.pcl.ac.cn/ARIO/ARIO_Dataset
论文（arXiv）：https://arxiv.org/abs/2408.10899