VIMA (2023)
2026-05-11 10:39
国际数据集 仿真生成 单臂操作 抓取 中程任务 机械臂 视觉 语言 多模态 通用研究 开源工具链 含语言指令 数字孪生 免费数据集
计费规则:
数据介绍

数据集介绍

VIMA 是一个大规模、多模态的机器人操作基准数据集,旨在通过多模态提示(文本、图像、视频的交错序列)来训练通用机器人智能体。该数据集基于程序生成的模拟环境,专门用于评估智能体在视觉和语言指导下的泛化能力,涵盖从简单的拾取放置到复杂的顺序任务。

  • 任务时序长度:支持短到中等长度的任务,通常包含 10-20 个操作步骤,侧重于桌面内的交互序列。
  • 动作可执行性:数据包含模拟器中机械臂的连续低级控制(如关节位置或末端执行器姿态),支持精细的 6-DoF 运动轨迹。
  • 时序连续性:提供 60万+ 条专家演示轨迹,完整记录了从初始状态到任务完成的连续交互过程。
  • 语言控制:支持多模态提示,包含自然语言指令、目标图像、视频片段以及它们的交错组合,提供了丰富的任务抽象层级。

主要特点

  1. 多模态提示(Multimodal Prompts): 不同于单一语言指令,VIMA 支持文本、图像、视频帧的交错输入。例如,可以输入“将物体 [图像A] 移动到 [图像B] 旁边”,实现了任务描述的极大灵活性。
  2. 强泛化评估协议:设计了四层难度的泛化评测体系,从“物体可见但全新布局”到“全新的目标组合”,严格测试模型在 Zero-shot 下的组合推理能力。
  3. 程序化任务生成:通过程序合成了超过 60 万条专家轨迹,覆盖了大量的桌面交互场景(如积木重排、对称图案模仿等)。
  4. Transformer 架构适配:数据专门用于训练基于 Transformer 的 VIMA 模型,该模型将多模态提示和机器人状态统一编码为 token 序列进行自回归预测。

数据来源

  • 采集平台:在仿真环境中生成(没有物理机器人采集成本),基于机械臂模型进行模拟操作。
  • 场景环境:模拟的桌面操作环境,包含程序化生成的物体(形状、颜色、纹理多样)。
  • 数据形式:完全为合成数据,包含专家演示轨迹(使用 Oracle 规划器生成)和多模态提示标注。

规模

  • 总演示轨迹:超 60 万条专家演示轨迹。
  • 任务覆盖:100 + 种不同的桌面操作任务。
  • 多模态提示对:120 万 + 条文本 - 图像 - 视频交错提示数据。

应用场景

适用于研究多模态大模型在机器人领域的应用,特别是:

  1. 零样本泛化:测试机器人对于未见过的物体组合或任务指令的适应能力。
  2. 少样本模仿:通过提示直接指定任务目标,而不需要大量微调。
  3. 多模态决策:研究如何融合视觉与语言信息进行精细的电机控制。
  4. 组合任务学习:如“先做A,再做B”或“像演示视频那样做”的顺序推理。

官方网站

https://github.com/vimalabs/VimaBench