OmniWorld

OmniWorld 是上海人工智能实验室发布的大规模、多领域、多模态数据集，专为 🌍 4D 世界建模（如 4D 几何重建、未来预测与相机可控视频生成）设计，论文收录于 ICLR 2026。该数据集系统性地整合了仿真器、机器人、人类与互联网四大来源的数据，旨在解决当前世界模型在复杂动态环境建模中的局限性。

任务时序长度：包含最长 16 秒的连续视频片段（24–60 FPS），覆盖从简短动作到长程序列的完整时序范围
动作可执行性：低层任务片段数据，其中机器人子集包含真实执行轨迹，可直接用于具身策略学习；仿真子集提供精确的相机位姿与深度信息，支持 4D 几何重建
时序连续性：数据为连贯的时序序列，同一场景内包含完整的动态变化过程
语言控制：提供文本描述与视觉信息双重条件信号，支持文本到视频生成、相机控制生成等多模态任务

主要特点

大规模：4000+小时，600K+序列，300M+帧
多领域：来源于模拟器、机器人、人类和互联网
多模态：深度图、相机位姿、文本描述、光流和前景掩码

数据来源

发布方：上海人工智能实验室
数据形式：混合来源（仿真器 + 真实世界）
标注类型：深度、相机位姿、文本、光流、前景掩码
许可协议：CC BY-NC-SA 4.0（非商业用途）

规模

总时长：4,000+ 小时
总序列数：600,000+ 条
总帧数：300,000,000+ 帧（约 3 亿帧）
数据体量：约 24 TB
OmniWorld-Game 子集：
96K 序列、214 小时、5M 帧、720P 分辨率、24 FPS
机器人子集合计：164K 序列（DROID: 35K + RH20T: 109K + AgiBot: 20K）
人类子集合计：336K 序列（RH20T-Human: 73K + HOI4D: 2K + Epic-Kitchens: 15K + Ego-Exo4D: 4K + EgoDex: 242K）
互联网子集：CityWalk: 7K 序列

应用场景

OmniWorld 专为 4D 世界建模而设计，已在以下任务中验证有效性：

4D 几何重建：从动态视频中恢复三维几何结构与运动
未来预测：预测视频后续帧的演进
相机可控视频生成：根据相机轨迹条件生成对应视角的视频
3D 点云生成：从 RGB-D 序列重建场景点云
视觉-语言导航：结合文本描述进行空间理解与导航
机器人策略学习：利用机器人子集进行模仿学习与策略预训练

实验证明：基于 OmniWorld 微调的最先进方法在 4D 重建与视频生成任务上均取得显著性能提升，验证了数据集在推动世界模型发展中的关键作用。

官方网址

GitHub：https://github.com/yangzhou24/OmniWorld
项目主页：https://yangzhou24.github.io/OmniWorld/
论文（arXiv）：https://arxiv.org/abs/2509.12201

数据介绍

产品

关注或联系我们