
数据集介绍
(注:基地下载的数据集版本在官网已经被删除,但是官网更新了一个新版本的数据集)
白虎-VTouch(White Tiger-VTouch)是全球首个大规模跨本体视触觉多模态数据集,由国家地方共建人形机器人创新中心联合上海纬钛科技有限公司于2026年1月发布。
该数据集聚焦于真实物理交互,系统性地填补了具身智能领域长期以来在“触觉与接触”维度的数据空白,旨在解决机器人“看得见却做不好”的精细操作难题。
- 任务时序长度:总规模超过60,000分钟,是目前全球最大的同类开源数据集之一,首批开源6,000分钟。
- 动作可执行性:基于真实机器人(轮臂、人形、手持端)在物理世界执行任务时采集的真实动作数据,非仿真生成,具备直接的真机部署与可执行能力。
- 时序连续性:数据包含完整的“接触前—接触中—接触后”时序链条,确保了物理交互过程的连贯性。
- 语言控制:数据集提供了跨层次交互理解标注,其中动作逻辑层结合了自然语言指令,将复杂任务拆解为可解释的动作步骤序列,支持语言条件的行为生成与泛化。
主要特点
- 填补触觉维度空缺:首个大规模引入视触觉信息的数据集。采用源自MIT的GelSight视触觉技术,传感器分辨率高达640×480、刷新率120Hz,包含超9072万对视触觉接触图像,使触觉信息具备与视觉同等级别的可学习表征密度。
- 跨本体多样性:数据不局限于单一机器人。覆盖了轮臂机器人(D-Wheel)、双足人形机器人(青龙) 以及手持智能终端等多种本体构型,支持跨本体具身模型的研究。
- “矩阵式”任务构建范式:突破传统单任务采集模式,通过双臂协同结构、原子操作类型、接触与触觉模式三大核心维度交叉构建任务空间,实现了数据规模化生成与能力结构化覆盖的闭环。
- 跨层次交互理解标注:构建了从抽象思维层(决策逻辑)、动作逻辑层(任务拆解)到物理状态层(触觉感知)的三层标注体系,为下一代具身VTLA(视觉-触觉-语言-动作)模型提供数据标准。
数据来源
数据采集自国家地方共建人形机器人创新中心的跨本体规模化数采平台,支持10余种传感器高带宽同步采集与精确时序对齐。任务数据来源于家居家政、工业制造、餐饮服务、特殊作业四大真实物理场景。
规模
- 总时长:超 60,000 分钟(1,000+ 小时)真实机器人物理交互数据。
- 任务覆盖:包含 380+ 任务类型、100+ 原子技能、500+ 真实物品。
- 接触数据:包含约 9,072万 对视触觉真实物体接触样本,接触密集型任务 260+ 个。
- 开源现状:首批 6,000 分钟数据已开放下载。
应用场景
数据集专注于四大核心场景,以解决真实世界的精细操作问题:
- 家居家政:如柔性物体操控(叠衣/整理)、复杂环境收纳、桌面清理等。
- 工业制造:高精度插拔、螺丝拧紧、线束装配、精密分拣等。
- 餐饮服务:食材处理、餐具摆放、柔性抓取(如豆腐/面包)等。
- 特殊作业:面向助老助残、特种救援等需要安全物理交互的任务。
官方网站
https://www.openloong.org.cn/cn/datasets/baihu-vtouch