
数据集介绍
Language-Table (2022) 是由Google DeepMind发布的大规模、语言驱动的机器人操作数据集。该数据集专门设计用于学习开放词汇的语言条件操作策略,机器人在桌面上根据自然语言指令推动不同形状和颜色的积木到目标位置。数据集包含超过60万条带语言标注的轨迹,为研究语言与机器人控制的结合提供了丰富的资源。
- 任务时序长度:短程任务,每段轨迹对应一条自然语言指令,任务通常在数十个时间步内完成。
- 动作可执行性:低级实时机械臂控制,输出末端执行器的位置移动指令以执行语言指令描述的操作。
- 时序连续性:包含连续多步视觉反馈的闭环控制序列,完整记录从初始状态到任务完成的视觉-动作过程。
- 语言控制:每条轨迹均包含开放词汇的自然语言指令标注,支持多样化的语言表达方式。
主要特点
- 大规模语言标注:超过60万条带语言标注的轨迹,是当前规模最大的语言条件机器人操作数据集之一。
- 开放词汇指令:支持多样化的自然语言表达,不限于固定模板,能够处理开放词汇的语言输入。
- 视觉-语言对齐:为研究视觉感知、语言理解和机器人控制的对齐学习提供了理想平台。
- 交互式闭环控制:数据包含连续的视觉反馈和动作响应,支持闭环策略的学习。
- 任务结构清晰:任务设定简单明确(推动积木到目标位置),便于研究者聚焦于语言-动作映射的核心问题。
数据来源
- 采集平台:桌面机械臂与实体积木,机器人根据指令推动不同形状/颜色的积木到目标位置。
- 采集环境:真实物理环境,桌面场景包含多种形状(方块、圆柱、三角形等)和颜色(红、蓝、绿、黄等)的积木。
- 数据形式:全部为真实物理环境采集数据,包含RGB图像序列、机器人动作序列以及对应的自然语言指令。
规模
- 总轨迹数量:超过60万条带语言标注的轨迹。
- 指令类型:开放词汇的自然语言指令,涵盖多样化的语言表达方式。
- 物体种类:多种形状和颜色的积木组合。
应用场景
数据集特别适合语言引导的机器人操作和视觉-语言-动作联合学习研究:
- 语言条件操作学习:训练根据自然语言指令执行桌面操作任务的机器人策略。
- 开放词汇指令理解:研究机器人如何处理未见过的语言表达方式和指令组合。
- 视觉-语言对齐:探索视觉场景理解与语言指令之间的对齐关系,实现从语言到动作的端到端映射。
- 交互式策略学习:基于视觉反馈的闭环控制策略研究,适用于需要实时响应动态环境变化的任务。
官方网站
下载地址:https://jszn.datasets.obs.cn-east-3.myhuaweicloud.com/datas/datasets/free/language%20table.rar