MuBlE:为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模

2025-03-05，由华为诺亚方舟实验室、捷克技术大学和帝国理工学院联合开发的MuBlE（MuJoCo and Blender simulation Environment）模拟环境和基准测试。通过结合MuJoCo物理引擎和Blender高质量渲染，为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模，填补了长时域机器人操作任务模拟环境的空白，为机器人操作任务的训练和评估提供了新的工具和挑战。

一、研究背景

机器人系统中，智能体需要根据视觉观察或自然语言指令完成指定任务，例如“将物体按重量从轻到重排序”。这些任务需要在模拟环境中生成数据或进行在线训练，并通过评估过程验证性能。然而，现有的模拟环境在物理仿真引擎和视觉观察质量上存在差异，难以同时满足高视觉质量和实时物理计算的需求。

目前遇到的困难和挑战：

1、视觉与物理的权衡：现有的模拟环境要么视觉效果不逼真，要么物理仿真不够精确，难以同时满足视觉和物理的高要求。

2、数据收集困难：真实世界中的机器人操作数据收集成本高昂，且受限于实时操作的复杂性。

3、长时域任务的挑战：当前的机器人智能体在需要与环境交互以获取必要信息的长时域任务中表现不佳，缺乏有效的训练环境和基准测试。

链接地址：MuBlE|机器人操作数据集|仿真环境数据集

二、让我们一起来看一下MuBlE

MuBlE（MuJoCo and Blender simulation Environment）是一个结合MuJoCo物理引擎和Blender高质量渲染的模拟环境，专注于长时域机器人操作任务，提供逼真的视觉观察和精确的物理建模。

MuBlE基于robosuite框架开发，利用MuJoCo进行物理仿真，并通过Blender进行高质量渲染，生成逼真的视觉数据。它支持多模态数据生成，包括场景合成、指令生成、场景图生成、任务完成评估以及物理属性观察（如重量、弹性等）。此外，MuBlE还提供了多种原语动作控制器，支持连续和离散动作空间。

MuBlE构建：

场景生成器：随机放置物体并生成场景，支持物体的颜色、材质和大小随机化。

指令生成器：基于场景生成自然语言指令，支持多步推理任务。

物理和视觉循环：通过MuJoCo和Blender实现物理仿真与视觉渲染的同步更新。

MuBlE特点：

逼真的视觉效果：通过Blender生成高质量的渲染图像，支持阴影、反射和不同光照条件。

精确的物理建模：利用MuJoCo实现高精度的物理仿真，支持复杂的机械系统。

多模态数据支持：提供视觉、语言和物理属性的多模态数据，支持长时域任务规划。

模块化设计：易于扩展和定制，支持多种任务和场景。

基准测试：

MuBlE配套发布了SHOP-VRB2基准测试，包含10类多步推理任务，涉及视觉属性（如物体属性、关系）和物理测量（如重量、弹性）。基准测试包括12,000个场景，涵盖单步和多步操作任务，如视觉问答（VQA）、具身问答（EQA）和视觉-语言-动作（VLA）任务。

拟议的 SHOP-VRB2 基准测试中的一个示例任务，展示了拟议的 MuBlE 环境的功能：合成场景和指令生成、执行符号作进行作，然后进行物理计算和逼真渲染。图像中标记了相应目标的符号作。

显示了 MuBlE 环境的各个模块的图表，包括如何将推理方法集成到 MuBlE 环境中。显示了 SHOP-VRB2 基准测试的示例说明和场景。传输数据的符号： 𝚃 - 查询文本， 𝙸 - 图像， 𝙶 - 场景图， 𝙿 - 物理观察， 𝙲 - 控制信号， 𝙰 - 要采取的原始作， 𝚁 - 返回的结果， 𝙶𝚃 - 地面实况数据。

MuBlE（黄色）和推理方法（橙色）之间交互的示例。图显示了选定的测量值 𝙿 和基于它们生成的基元作 𝙰 ，然后是环境中场景的相应更新。

与拟议数据集中的基准测试任务相对应的指令模板。

SHOP-VRB2 示例：使用 MuBlE 生成的自然语言模拟场景示例和相应指令（在数据集中，从左到右的指令属于表 II 中的任务 7、3 和 1）。

为与指令对应的作生成的视觉观察（选定帧）示例：从最重到最轻堆叠金属对象。（左）Blender 在 MuBlE 中渲染的模拟 YCB 场景，以及（右）Realsense 相机在真实实验期间使用在模拟 SHOP-VRB2 数据集上的 MuBlE 环境中预训练的推理捕获的相应真实 YCB 场景。

SHOP-VRB2 （sim）和 YCB 数据集（sim/real）上基线方法的成功率。

使用 YCB 对象的真实设置（左）、使用估计姿势的相应 MuJoCo 模拟（中）以及 CosyPose 检测到的带有叠加灰色模型的彩色点云的 RViz 可视化（右）。

三、让我们一起来看一下MuBlE 的应用场景

场景：按照物体重量从重到轻堆叠物体

以前的工作方式：

以前，机器人在堆叠物体时，主要依赖于预设的程序和简单的传感器数据。比如，它可能会用一个普通的传感器大致估计物体的重量，然后按照一个固定的顺序去堆叠。但这种方法很不灵活，如果物体的重量差异不大，或者传感器精度不高，机器人很容易堆不好，甚至把物体弄倒。而且，它很难根据物体的实际重量动态调整堆叠顺序，更别提考虑堆叠的稳定性了。

现在可不一样了，来，看看

现在有了MuBlE环境，机器人可以更聪明地完成任务。首先，它会用高精度的传感器（比如在MuBlE环境中模拟的物理测量工具）去精确测量每个物体的重量。然后，它会根据测量结果，动态规划堆叠顺序，先把最重的物体放在下面，最轻的放在上面。同时，机器人还会实时考虑堆叠的稳定性。比如，如果它发现某个物体放上去后可能会让整个堆叠结构不稳定，它就会调整物体的位置或者重新选择堆叠顺序。

而且，MuBlE环境还能通过高质量的渲染和物理模拟，让机器人在虚拟环境中先进行练习。这样，机器人可以在模拟环境中不断试错，优化堆叠策略，直到找到最稳定、最高效的方法。这样一来，当机器人真正去操作真实物体时，成功率就会大大提高。

这种改进不仅让机器人在堆叠任务中表现得更智能，还为复杂机器人操作任务的训练和评估提供了更强大的工具。