
数据集介绍
Meta-World (2019) 是由斯坦福大学发布的面向多任务和元强化学习研究的仿真机械臂操作基准环境。该数据集/环境包含50种多样的机械臂操作任务,任务之间彼此多样且具有共享结构,旨在为多任务学习和元学习算法提供标准化、可复现的评估平台。作为完全基于仿真的环境,Meta-World可生成无限量的交互数据。
- 任务时序长度:短程任务,每个环境对应单一操作技能,任务完成通常需要数十到数百个时间步。
- 动作可执行性:低级连续控制,输出对应模拟机器人(通常为Sawyer或Franka机械臂)的关节力矩或末端执行器位置命令。
- 时序连续性:以模拟环境中的轨迹序列形式记录,包含连续的状态-动作对。
- 语言控制:不包含自然语言指令标注。
主要特点
- 标准化的多任务基准:公开三种难度模式(如MT10、MT50等),为评估多任务和元学习算法提供统一标准。
- 任务多样性突出:涵盖50种不同的机械臂操作任务,如按按钮、开抽屉、插销钉、推物体、抓取放置、转动手柄、关闭水龙头等。
- 任务间共享结构:任务之间共享底层物理环境和动作空间,支持学习跨任务的可迁移知识。
- 完全仿真环境:基于MuJoCo物理模拟器,无需硬件成本,支持大规模并行训练与快速迭代。
- 开源生态完善:提供完整的API接口和可视化工具,支持研究者自定义新任务。
数据来源
- 模拟器:基于MuJoCo(Multi-Joint dynamics with Contact)物理引擎。
- 机器人平台:通常使用Sawyer或Franka Emika Panda机械臂模型。
- 环境构建:包含多种操作物体(按钮、抽屉、钉子、手柄、杯子等)和工作台面。
规模
- 任务数量:50种机械臂操作任务。
- 难度模式:MT10(10个任务)、MT50(50个任务)等多种基准配置。
- 数据规模:作为仿真环境,可通过交互式策略生成无限量的轨迹数据。
应用场景
数据集特别适合多任务和元学习的算法研究与评估:
- 多任务强化学习:评估算法在多个任务上同时学习时的性能表现和任务间迁移效果。
- 元学习研究:快速适应新任务的元学习算法(如MAML、Reptile等)的标准测试平台。
- 迁移学习:研究知识从一个任务向另一个相关任务的迁移效率和泛化能力。
- 算法对比基准:作为机器人操作领域的标准化基准环境,为新算法提供公平可复现的性能比较。
官方网站
- 项目主页:https://meta-world.github.io
- 论文:http://arxiv.org/pdf/1910.10897