
OmniWorld 是上海人工智能实验室发布的大规模、多领域、多模态数据集,专为 🌍 4D 世界建模(如 4D 几何重建、未来预测与相机可控视频生成)设计,论文收录于 ICLR 2026。该数据集系统性地整合了仿真器、机器人、人类与互联网四大来源的数据,旨在解决当前世界模型在复杂动态环境建模中的局限性。
- 任务时序长度:包含最长 16 秒 的连续视频片段(24–60 FPS),覆盖从简短动作到长程序列的完整时序范围
- 动作可执行性:低层任务片段数据,其中机器人子集包含真实执行轨迹,可直接用于具身策略学习;仿真子集提供精确的相机位姿与深度信息,支持 4D 几何重建
- 时序连续性:数据为连贯的时序序列,同一场景内包含完整的动态变化过程
- 语言控制:提供文本描述与视觉信息双重条件信号,支持文本到视频生成、相机控制生成等多模态任务
主要特点
- 大规模:4000+小时,600K+序列,300M+帧
- 多领域:来源于模拟器、机器人、人类和互联网
- 多模态:深度图、相机位姿、文本描述、光流和前景掩码
数据来源
- 发布方:上海人工智能实验室
- 数据形式:混合来源(仿真器 + 真实世界)
- 标注类型:深度、相机位姿、文本、光流、前景掩码
- 许可协议:CC BY-NC-SA 4.0(非商业用途)
规模
- 总时长:4,000+ 小时
- 总序列数:600,000+ 条
- 总帧数:300,000,000+ 帧(约 3 亿帧)
- 数据体量:约 24 TB
- OmniWorld-Game 子集:
- 96K 序列、214 小时、5M 帧、720P 分辨率、24 FPS
- 机器人子集合计:164K 序列(DROID: 35K + RH20T: 109K + AgiBot: 20K)
- 人类子集合计:336K 序列(RH20T-Human: 73K + HOI4D: 2K + Epic-Kitchens: 15K + Ego-Exo4D: 4K + EgoDex: 242K)
- 互联网子集:CityWalk: 7K 序列
应用场景
OmniWorld 专为 4D 世界建模而设计,已在以下任务中验证有效性:
- 4D 几何重建:从动态视频中恢复三维几何结构与运动
- 未来预测:预测视频后续帧的演进
- 相机可控视频生成:根据相机轨迹条件生成对应视角的视频
- 3D 点云生成:从 RGB-D 序列重建场景点云
- 视觉-语言导航:结合文本描述进行空间理解与导航
- 机器人策略学习:利用机器人子集进行模仿学习与策略预训练
实验证明:基于 OmniWorld 微调的最先进方法在 4D 重建与视频生成任务上均取得显著性能提升,验证了数据集在推动世界模型发展中的关键作用。
官方网址