VIMA (2023)

数据集介绍

VIMA 是一个大规模、多模态的机器人操作基准数据集，旨在通过多模态提示（文本、图像、视频的交错序列）来训练通用机器人智能体。该数据集基于程序生成的模拟环境，专门用于评估智能体在视觉和语言指导下的泛化能力，涵盖从简单的拾取放置到复杂的顺序任务。

主要特点

多模态提示（Multimodal Prompts）：不同于单一语言指令，VIMA 支持文本、图像、视频帧的交错输入。例如，可以输入“将物体 [图像A] 移动到 [图像B] 旁边”，实现了任务描述的极大灵活性。
强泛化评估协议：设计了四层难度的泛化评测体系，从“物体可见但全新布局”到“全新的目标组合”，严格测试模型在 Zero-shot 下的组合推理能力。
程序化任务生成：通过程序合成了超过 60 万条专家轨迹，覆盖了大量的桌面交互场景（如积木重排、对称图案模仿等）。
Transformer 架构适配：数据专门用于训练基于 Transformer 的 VIMA 模型，该模型将多模态提示和机器人状态统一编码为 token 序列进行自回归预测。

数据来源

规模

应用场景

适用于研究多模态大模型在机器人领域的应用，特别是：

官方网站

https://github.com/vimalabs/VimaBench