
数据集介绍
VIMA 是一个大规模、多模态的机器人操作基准数据集,旨在通过多模态提示(文本、图像、视频的交错序列)来训练通用机器人智能体。该数据集基于程序生成的模拟环境,专门用于评估智能体在视觉和语言指导下的泛化能力,涵盖从简单的拾取放置到复杂的顺序任务。
- 任务时序长度:支持短到中等长度的任务,通常包含 10-20 个操作步骤,侧重于桌面内的交互序列。
- 动作可执行性:数据包含模拟器中机械臂的连续低级控制(如关节位置或末端执行器姿态),支持精细的 6-DoF 运动轨迹。
- 时序连续性:提供 60万+ 条专家演示轨迹,完整记录了从初始状态到任务完成的连续交互过程。
- 语言控制:支持多模态提示,包含自然语言指令、目标图像、视频片段以及它们的交错组合,提供了丰富的任务抽象层级。
主要特点
- 多模态提示(Multimodal Prompts): 不同于单一语言指令,VIMA 支持文本、图像、视频帧的交错输入。例如,可以输入“将物体 [图像A] 移动到 [图像B] 旁边”,实现了任务描述的极大灵活性。
- 强泛化评估协议:设计了四层难度的泛化评测体系,从“物体可见但全新布局”到“全新的目标组合”,严格测试模型在 Zero-shot 下的组合推理能力。
- 程序化任务生成:通过程序合成了超过 60 万条专家轨迹,覆盖了大量的桌面交互场景(如积木重排、对称图案模仿等)。
- Transformer 架构适配:数据专门用于训练基于 Transformer 的 VIMA 模型,该模型将多模态提示和机器人状态统一编码为 token 序列进行自回归预测。
数据来源
- 采集平台:在仿真环境中生成(没有物理机器人采集成本),基于机械臂模型进行模拟操作。
- 场景环境:模拟的桌面操作环境,包含程序化生成的物体(形状、颜色、纹理多样)。
- 数据形式:完全为合成数据,包含专家演示轨迹(使用 Oracle 规划器生成)和多模态提示标注。
规模
- 总演示轨迹:超 60 万条专家演示轨迹。
- 任务覆盖:100 + 种不同的桌面操作任务。
- 多模态提示对:120 万 + 条文本 - 图像 - 视频交错提示数据。
应用场景
适用于研究多模态大模型在机器人领域的应用,特别是:
- 零样本泛化:测试机器人对于未见过的物体组合或任务指令的适应能力。
- 少样本模仿:通过提示直接指定任务目标,而不需要大量微调。
- 多模态决策:研究如何融合视觉与语言信息进行精细的电机控制。
- 组合任务学习:如“先做A,再做B”或“像演示视频那样做”的顺序推理。
官方网站