InternData-A1
2026-05-11 11:31
国内数据集 仿真生成 单臂操作 双臂操作 长程任务 跨本体 视觉 语言 通用研究 含语言指令 开源工具链 统一格式 免费数据集
计费规则:
数据介绍

数据集介绍

InternData-A1 是上海人工智能实验室发布的大规模高保真合成操作数据集,论文收录于 arXiv 2025。该数据集首次证明:纯合成数据在预训练 VLA(视觉-语言-动作)模型时,可以媲美目前最强的真实机器人数据集(π-dataset)。

这一发现颠覆了"合成数据不如真实数据"的传统认知,揭示了大尺度仿真的巨大价值。实验表明,完全在 InternData-A1 上预训练的模型,在 49 项仿真任务、5 项真实世界任务和 4 项长程灵巧任务中,性能与官方 π₀ 模型持平。模型还展现出惊人的零样本仿真到真实迁移能力,在多个挑战性任务上实现直通部署。任务时序长度:支持长程任务,单条轨迹可达数百个动作步骤,包含 21.77% 的长期任务(涉及至少三种连续技能)

  • 动作可执行性:基于高度自动化的组合仿真管道生成低层控制命令,支持单臂/双臂异构体,可直接用于 VLA 模型预训练
  • 时序连续性:数据为连续轨迹序列,保留完整的时序依赖与物理交互过程
  • 语言控制:每条轨迹配有语言指令,支持语言条件的策略训练

主要特点

  1. 纯合成数据飞跃:首个证明纯合成数据可匹敌顶级真实数据集(π-dataset)的工作。仿真与真实数据等效比在常规任务达 1:1,复杂任务可缩至 8:1 以内。
  2. 规模领先:63 万条轨迹、7,433 小时交互时长,是目前公开的最大规模机器人操作合成数据集之一。
  3. 物理多样性跨越:突破"纯刚体"局限,覆盖 刚体、铰接体、可变形体、流体 四类物体交互。包含 3,185 个刚性物体、321 个关节物体、20 件服装及流体任务。
  4. 多本体异构支持:涵盖4 种机器人构型——AgiBot Genie-1(双臂)、Franka Emika Panda(单臂)、AgileX Split Aloha(双臂)、ARX Lift-2(双臂),填补了双臂协作数据的开源空白。
  5. 自动化管道创新:采用"阶段解耦+堆叠渲染"的流水线架构,实现 2-3 倍端到端性能提升,支持低人工干预的大规模数据生成。
  6. 成熟生态集成:数据已按 LeRobot 格式 统一存储,与主流 VLA 训练框架(包括 π₀、ACT、Diffusion Policy)无缝对接。
  7. 社区验证广泛:InternData-A1 稳居 HuggingFace Robotics 数据集趋势榜 Top10,Intern-Robotics 系列模型/数据集总下载量超 110 万次。

数据来源

  • 发布方:上海人工智能实验室
  • 数据形式:纯合成数据(高保真仿真生成)
  • 生成管道:四阶段自动化流程——环境构建 → 技能组合 → 域随机化 → 轨迹生成与渲染
  • 物理引擎:Isaac Sim 仿真器 + CuRobo 运动规划器
  • 资产来源:Objaverse、OmniObject3D、GRUtopia、GAPartNet、PartNet-Mobility、3D-FUTURE 等

规模

  • 轨迹总数:超过 630,000 条
  • 总交互时长:7,433 小时
  • 总帧数:01 亿帧
  • 机器人类型:4 种(AgiBot Genie-1、Franka Emika Panda、AgileX Split Aloha、ARX Lift-2)
  • 原子技能:18 种
  • 任务总数:70 项
  • 长期任务(≥3 技能):18 项(77%)
  • 场景数量:227 个室内场景(厨房、书房、餐厅、客厅)
  • 刚性物体:3,185 个
  • 关节物体:321 个
  • 服装/可变形物体:20 件
  • 拾取放置任务占比:61%
  • 铰接体操作任务占比:67%
  • 基础任务(<3 技能)占比:95%
  • 长期任务(≥3 技能)占比:77%
  • 数据格式:LeRobot 格式(HuggingFace)

应用场景

InternData-A1 专为预训练通用 VLA 策略而设计,已在以下任务类型中验证有效性:

  • 常规操作任务:拾取放置、推拉、旋转、插入等原子技能的组合与泛化
  • 铰接体操作:开关抽屉、微波炉、冰箱门等关节物体交互
  • 可变形物体操作:折叠衣物、布料铺平等柔性物体处理
  • 流体操作:倒水、倾倒颗粒物等涉及流体动力学场景
  • 双臂协同任务:双手搬运、装配、协作操作等
  • 长程任务:涉及 3 种以上连续技能的复杂任务链

实验证明,基于 InternData-A1 预训练的模型在真实世界任务中表现优异——仅用 500 条仿真轨迹训练,即在 6 项真实任务上达到 50% 以上成功率。

官方网址