
数据集介绍
RH20T 是上海交通大学卢策吾教授团队创建的大规模真实世界机器人操控数据集,论文收录于 RSS 2023 和 ICRA 2024 。该数据集旨在解决开放域机器人操作中技能多样性和泛化性的核心挑战,通过多模态感知帮助机器人学习数百种真实世界技能。与现有主要依赖视觉引导的简单任务(如推或拾取-放置)不同,RH20T 聚焦于需要丰富物理交互的复杂技能,其中许多技能需要视觉与触觉协同感知才能解决 。
- 任务时序长度:短程任务,覆盖从简单抓取到复杂操作的单步或简短序列
- 动作可执行性:基于人类遥操作采集的低层机械臂控制轨迹,包含力矩传感器反馈的力信息,可直接用于真机部署
- 时序连续性:数据为连贯的操作序列,保留了完整的物理交互过程
- 语言控制:为每个机器人序列提供对应的语言描述,支持语言条件的技能学习
主要特点
- 大规模接触丰富序列:包含超过 110,000 个接触丰富的机器人操作序列,涵盖约 150 种技能(官方数据为 140 项技能/7 个任务大类) 。
- 多模态感知融合:每个序列包含视觉、力觉、听觉和动作信息四模态数据,是少数同时提供力触觉反馈的大规模数据集之一 :
- 视觉:每个采集平台配备 8-10 个全局摄像头 + 1-2 个手持摄像头
- 力觉:通过力矩传感器和触觉设备采集力反馈数据
- 听觉:2 个麦克风同步采集环境音频
- 人类演示对齐:为每个机器人操作序列提供对应的人类演示视频,支持从人类示范中学习 。
- 多本体多样性:数据采集使用多种不同机械臂(世界各地实验室常见配置),有助于算法跨机器人泛化 。
- 质量控制系统:采集时志愿者需对每次操作进行 0-9 评分(0=紧急状态,1=失败,2-9=质量评估),成功与失败案例比例约 10:1 。
- 社区验证有效:实验证明,使用 RH20T 预训练的模型在少样本学习场景中持续优于非预训练模型,尤其在新环境测试中泛化能力显著提升 。
数据来源
- 发布方:上海交通大学(卢策吾教授团队)
- 采集平台:配备力矩传感器的机械臂 + 夹持器 + 8-10 全局相机 + 1-2 手持相机 + 2 麦克风 + 触觉设备 + 踏板
- 采集方式:人类遥操作(约 1 小时培训),由数十名志愿者执行
- 数据质量:每次操作后 0-9 评分,失败案例保留(比例约 1:10)
- 开源协议:数据集公开发布于 github.io
规模
- 操作序列总数:超过 110,000 条
- 技能数量:约 150 种(涵盖切割、插入、切片、倾倒、折叠、旋转等)
- 任务大类:7 个
- 机器人类型:多种不同机械臂
- 相机视角:每平台 8-12 个相机
- 数据体量:约 20 TB
- 成功与失败比例:约 10:1
应用场景
- 单次模仿学习 (One-shot Imitation Learning):通过单个演示让机器人获取新技能
- 多模态感知操作:需要视觉+力觉协同的复杂任务(如切割、插入、装配)
- 技能泛化研究:跨场景、跨物体、跨机器人的技能迁移
- 少样本学习 (Few-shot Learning):用少量演示数据快速适配新任务
后续扩展(RH20T-P):研究团队进一步提出了 RH20T-P(收录于 IROS 2025),这是一个基元级机器人操作数据集,包含约 3.8 万视频片段,覆盖 67 个真实世界操作任务,支持可组合泛化智能体的研究 。
官方网址
- 项目主页:https://rh20t.github.io
- 论文(arXiv):https://arxiv.org/abs/2307.00595