构建具身智能体的时空宇宙！GRUtopia：畅想城市规模下通用机器人的生活图景

作者： Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang
单位：上海人工智能实验室，浙江大学，上海交通大学，清华大学，南京大学，香港中文大学，西安电子科技大学
论文标题：GRUtopia: Dream General Robots in a City at Scale
论文链接：https://arxiv.org/pdf/2407.10943v1
代码链接：https://github.com/OpenRobotLab/GRUtopia

主要贡献

论文提出了大规模的交互式3D场景数据集GRScenes，包含10万个高度交互和精细标注的场景，可以自由组合成城市规模的环境，涵盖了89个不同的场景类别。
引入了由大模型（LLM）驱动的NPC系统GRResidents，负责社交互动、任务生成和任务分配。系统模拟了社交场景，为具身AI应用提供了新的维度。
提出了基准测试平台GRBench，支持多种机器人，特别是以腿式机器人为主要智能体，评估其执行对象导航、社交导航和移动操作等中等难度任务的能力，提供了更全面的具身AI研究评估。
通过仿真平台GRUtopia，展示了如何利用仿真来缓解高质量数据的稀缺性。仿真到现实（Sim2Real）范式有助于在现实世界中实现机器人技术的扩展和应用。

研究背景

研究问题

论文主要解决的问题是如何在机器人学习中实现规模扩展，特别是针对具身智能（Embodied AI）领域。

现有的真实世界数据收集成本高且存在泛化问题，因此论文提出使用仿真到现实（Sim2Real）范式来推动具身模型的学习。

研究难点

数据收集与泛化:
- 数据稀缺性: 收集真实世界的机器人动作轨迹成本高昂且耗时，限制了机器人在不同硬件平台上进行泛化学习的能力。
- 数据质量: 需要高质量、多样化的数据集来训练和评估机器人模型，以确保其在各种环境中的鲁棒性和适应性。
仿真与现实的差距:
- 物理真实性: 现有的仿真平台往往缺乏物理真实感，导致在仿真中训练的策略难以直接应用于现实世界。
- 环境复杂性: 在复杂的现实环境中，机器人需要处理动态变化、不可预测的环境因素，这对算法的鲁棒性和适应性提出了更高要求。
多模态交互:
- 感知与理解: 机器人需要在视觉、听觉和语言等多模态输入中进行有效感知和理解，以便与环境和其他实体进行交互。
- 任务执行: 机器人需要能够理解和执行复杂的任务指令，这要求模型具备强大的推理和决策能力。
社交互动:
- 人机交互: 机器人需要与人类用户进行有效的社交互动，包括理解用户意图、提供反馈和调整行为。
- 动态对话: 在动态环境中，机器人需要能够进行持续的对话，以获取必要的信息并完成任务。
控制与规划:
- 低级控制: 机器人需要具备精确的低级控制能力，以实现复杂的运动和操作。
- 高级规划: 在复杂环境中，机器人需要进行高效的任务规划和路径规划，以应对多变的环境条件。

数据集与平台

GRScenes

场景多样性:
- GRScenes是一个大规模的3D合成场景数据集，包含多样化的对象资产。
- 为了构建这个平台，论文收集了大约10万个高质量的合成场景，涵盖广泛的场景原型。
交互对象:
- 场景中包含多个3D对象，其中一些对象经过修改以使其可交互。
- 所有对象都进行了细粒度的标注，以提供更全面的信息，使智能体能够与环境中的资产进行交互。
多层次多模态标注:
- 为了支持多模态交互，论文对场景和对象进行了语言标注。
- 这些标注考虑了不同粒度的场景元素，如对象-区域关系，以增强智能体与环境和NPC的交互能力。

GRResidents

世界知识管理器（WKM）:
- WKM负责管理虚拟环境的动态知识，并通过一系列数据接口提供场景知识。
- 使用层次化标注和场景知识构建场景图，每个节点表示一个对象实例，边表示对象之间的空间关系。
LLM规划器:
- NPC的决策模块是一个基于LLM的规划器，包括记忆模块、LLM programmer和LLM speaker 。
- 记忆模块存储智能体与其他智能体的聊天历史，
- LLM programmer查询场景知识，
- LLM speaker根据聊天历史和查询到的知识生成响应。

机器人控制API

低级控制API:
- 为了在物理仿真中管理机器人智能体，论文提供了低级控制API。
- 这些API基于强化学习（RL）控制器，支持各种机器人，包括仿人机器人和四足机器人。
- 这些API旨在促进在仿真器中执行高层次任务的智能体算法的部署。
性能评估:
- 论文对不同控制器的性能进行了评估，发现尽管低级控制表现出色，但在复杂环境中部署策略时仍存在挑战。
- 这突显了在现实世界复杂场景中结合低级控制和高层次任务执行的必要性。

GRBench基准测试平台

GRBench用于评估具身智能体（embodied agents）的能力，包括三个基准测试，分别评估智能体在不同任务中的表现。

基准测试设置

对象移动导航（Object Loco-Navigation）:
- 评估智能体根据给定的语言目标导航到目标对象的能力。
- 智能体需要主动感知环境并导航到目标对象，成功标准是目标对象出现在智能体的视野内。
社交移动导航（Social Loco-Navigation）: 评
- 估智能体通过与NPC的有效沟通来识别目标对象的能力。
- 智能体必须通过对话澄清目标对象的特性，最多允许三次对话轮次。成功标准与对象移动导航相同。
移动操作（Loco-Manipulation）:
- 在移动导航的基础上，测试机器人使用机械臂进行抓取和放置对象的能力。
- 智能体需要理解对象和接收器的外观及其之间的关系，并将手持目标对象准确地放置在满足所有条件的位置上。

基线模型

零样本VLM基线:
- 使用开源和闭源的多模态大模型（如InternVL-chat-1.5、GPT-4o、Qwen-VL等）作为基线。
- 对于对象移动导航和社交移动导航，VLM基线直接输入当前图像观察和语言提示，输出动作选择。
- 对于移动操作，引入了新的动作类型（如Pick和Place）以支持机器人的移动操作能力。
LLM智能体基线:
- 提出了一个由接地模块、记忆模块、决策模块和动作模块组成的LLM智能体框架。
- 通过这些模块的协作，智能体能够有效地分析和利用环境输入，进行物理和语言交互。

评价指标

成功标准:
- 对于对象移动导航和社交移动导航，成功标准是目标对象在智能体的视野内且距离小于3米。
- 对于移动操作，成功标准是手持目标对象准确放置在目标位置。
对象移动导航:
- 使用成功率（SR）、路径长度（PL）、加权成功率（SPL）和重置次数（RT）作为评价指标。
社交移动导航:
- 除了SR、PL、SPL和RT外，还引入排除候选率（ECR）来评估对话在减少模糊候选项方面的效率。
移动操作:
- 除了SR、PL和RT外，还引入满足条件率（SCR）来衡量任务中条件的满足程度。

定量结果

总体表现:
- 随机策略的表现接近于零，表明任务具有一定的挑战性。
- 使用较先进的大型模型作为后端时，整体表现显著提高，特别是在对话任务中Qwen优于GPT-4o。
具体任务表现:
- 对象移动导航、社交移动导航和移动操作任务的定量结果显示，智能体在这些任务中的表现各有不同，移动操作任务最为困难。