构建具身智能体的时空宇宙!GRUtopia:畅想城市规模下通用机器人的生活图景

  • 作者: Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang

  • 单位:上海人工智能实验室,浙江大学,上海交通大学,清华大学,南京大学,香港中文大学,西安电子科技大学

  • 论文标题:GRUtopia: Dream General Robots in a City at Scale

  • 论文链接:https://arxiv.org/pdf/2407.10943v1

  • 代码链接:https://github.com/OpenRobotLab/GRUtopia

主要贡献

  • 论文提出了大规模的交互式3D场景数据集GRScenes,包含10万个高度交互和精细标注的场景,可以自由组合成城市规模的环境,涵盖了89个不同的场景类别。

  • 引入了由大模型(LLM)驱动的NPC系统GRResidents,负责社交互动、任务生成和任务分配。系统模拟了社交场景,为具身AI应用提供了新的维度。

  • 提出了基准测试平台GRBench,支持多种机器人,特别是以腿式机器人为主要智能体,评估其执行对象导航、社交导航和移动操作等中等难度任务的能力,提供了更全面的具身AI研究评估。

  • 通过仿真平台GRUtopia,展示了如何利用仿真来缓解高质量数据的稀缺性。仿真到现实(Sim2Real)范式有助于在现实世界中实现机器人技术的扩展和应用。

研究背景

研究问题

论文主要解决的问题是如何在机器人学习中实现规模扩展,特别是针对具身智能(Embodied AI)领域。

现有的真实世界数据收集成本高且存在泛化问题,因此论文提出使用仿真到现实(Sim2Real)范式来推动具身模型的学习。

研究难点

  • 数据收集与泛化:

    • 数据稀缺性: 收集真实世界的机器人动作轨迹成本高昂且耗时,限制了机器人在不同硬件平台上进行泛化学习的能力。

    • 数据质量: 需要高质量、多样化的数据集来训练和评估机器人模型,以确保其在各种环境中的鲁棒性和适应性。

  • 仿真与现实的差距:

    • 物理真实性: 现有的仿真平台往往缺乏物理真实感,导致在仿真中训练的策略难以直接应用于现实世界。

    • 环境复杂性: 在复杂的现实环境中,机器人需要处理动态变化、不可预测的环境因素,这对算法的鲁棒性和适应性提出了更高要求。

  • 多模态交互:

    • 感知与理解: 机器人需要在视觉、听觉和语言等多模态输入中进行有效感知和理解,以便与环境和其他实体进行交互。

    • 任务执行: 机器人需要能够理解和执行复杂的任务指令,这要求模型具备强大的推理和决策能力。

  • 社交互动:

    • 人机交互: 机器人需要与人类用户进行有效的社交互动,包括理解用户意图、提供反馈和调整行为。

    • 动态对话: 在动态环境中,机器人需要能够进行持续的对话,以获取必要的信息并完成任务。

  • 控制与规划:

    • 低级控制: 机器人需要具备精确的低级控制能力,以实现复杂的运动和操作。

    • 高级规划: 在复杂环境中,机器人需要进行高效的任务规划和路径规划,以应对多变的环境条件。

相关工作

  • 具身AI基准测试:

    • VirtualHome和Alfred专注于符号推理,通过抽象物理交互来简化任务,但缺乏物理真实感和动作范围。

    • Habitat使用真实房屋的3D扫描进行导航任务,但同样缺乏基于物理的交互。Habitat 2.0和iGibson提供了更真实的动作和环境交互,但仍需增强任务多样性。

    • ManiSkills、TDW、SoftGym和RFUniverse等平台注重物理真实性,但在任务多样性方面仍有不足。它们通常缺乏多样化的任务类型和场景设置。

  • 低级控制策略:

    • 腿部机器人控制: 低级控制策略通常在仿真器中训练,如Isaac Orbit和Gym,但这些平台通常局限于特定地形。Aloba系列展示了在双臂和移动操作中的模仿学习能力。

    • 操作控制: 近期工作如RT-1和BC-Z展示了在多任务学习和技能泛化方面的进展,但这些方法在复杂环境中的应用仍面临挑战。

  • 模拟器中的NPC:

    • 社交互动: 最近的研究强调社交互动在人机交互中的重要性。Habitat 3.0探索了在家庭环境中人形智能体之间的协作,类似于使用LLM模拟真实人类行为的生成智能体。

    • 任务分配: NPC设计不仅限于任务分配,还可以在执行任务时提供关键信息,超越了传统的人机交互模式。GRUtopia的NPC系统通过LLM驱动,能够在模拟环境中提供自然的社交互动。

数据集与平台

GRScenes

  • 场景多样性:
    • GRScenes是一个大规模的3D合成场景数据集,包含多样化的对象资产。

    • 为了构建这个平台,论文收集了大约10万个高质量的合成场景,涵盖广泛的场景原型。

  • 交互对象:
    • 场景中包含多个3D对象,其中一些对象经过修改以使其可交互。

    • 所有对象都进行了细粒度的标注,以提供更全面的信息,使智能体能够与环境中的资产进行交互。

  • 多层次多模态标注:
    • 为了支持多模态交互,论文对场景和对象进行了语言标注。

    • 这些标注考虑了不同粒度的场景元素,如对象-区域关系,以增强智能体与环境和NPC的交互能力。

GRResidents

  • 世界知识管理器(WKM):
    • WKM负责管理虚拟环境的动态知识,并通过一系列数据接口提供场景知识。

    • 使用层次化标注和场景知识构建场景图,每个节点表示一个对象实例,边表示对象之间的空间关系。

  • LLM规划器:
    • NPC的决策模块是一个基于LLM的规划器,包括记忆模块、LLM programmer和LLM speaker 。

    • 记忆模块存储智能体与其他智能体的聊天历史,

    • LLM programmer查询场景知识,

    • LLM speaker根据聊天历史和查询到的知识生成响应。

机器人控制API

  • 低级控制API:
    • 为了在物理仿真中管理机器人智能体,论文提供了低级控制API。

    • 这些API基于强化学习(RL)控制器,支持各种机器人,包括仿人机器人和四足机器人。

    • 这些API旨在促进在仿真器中执行高层次任务的智能体算法的部署。

  • 性能评估:
    • 论文对不同控制器的性能进行了评估,发现尽管低级控制表现出色,但在复杂环境中部署策略时仍存在挑战。

    • 这突显了在现实世界复杂场景中结合低级控制和高层次任务执行的必要性。

GRBench基准测试平台

GRBench用于评估具身智能体(embodied agents)的能力,包括三个基准测试,分别评估智能体在不同任务中的表现。

基准测试设置

  • 对象移动导航(Object Loco-Navigation):
    • 评估智能体根据给定的语言目标导航到目标对象的能力。

    • 智能体需要主动感知环境并导航到目标对象,成功标准是目标对象出现在智能体的视野内。

  • 社交移动导航(Social Loco-Navigation): 评
    • 估智能体通过与NPC的有效沟通来识别目标对象的能力。

    • 智能体必须通过对话澄清目标对象的特性,最多允许三次对话轮次。成功标准与对象移动导航相同。

  • 移动操作(Loco-Manipulation):
    • 在移动导航的基础上,测试机器人使用机械臂进行抓取和放置对象的能力。

    • 智能体需要理解对象和接收器的外观及其之间的关系,并将手持目标对象准确地放置在满足所有条件的位置上。

基线模型

  • 零样本VLM基线:

    • 使用开源和闭源的多模态大模型(如InternVL-chat-1.5、GPT-4o、Qwen-VL等)作为基线。

    • 对于对象移动导航和社交移动导航,VLM基线直接输入当前图像观察和语言提示,输出动作选择。

    • 对于移动操作,引入了新的动作类型(如Pick和Place)以支持机器人的移动操作能力。

  • LLM智能体基线:

    • 提出了一个由接地模块、记忆模块、决策模块和动作模块组成的LLM智能体框架。

    • 通过这些模块的协作,智能体能够有效地分析和利用环境输入,进行物理和语言交互。

评价指标

  • 成功标准:
    • 对于对象移动导航和社交移动导航,成功标准是目标对象在智能体的视野内且距离小于3米。

    • 对于移动操作,成功标准是手持目标对象准确放置在目标位置。

  • 对象移动导航:
    • 使用成功率(SR)、路径长度(PL)、加权成功率(SPL)和重置次数(RT)作为评价指标。

  • 社交移动导航:
    • 除了SR、PL、SPL和RT外,还引入排除候选率(ECR)来评估对话在减少模糊候选项方面的效率。

  • 移动操作:
    • 除了SR、PL和RT外,还引入满足条件率(SCR)来衡量任务中条件的满足程度。

定量结果

  • 总体表现:
    • 随机策略的表现接近于零,表明任务具有一定的挑战性。

    • 使用较先进的大型模型作为后端时,整体表现显著提高,特别是在对话任务中Qwen优于GPT-4o。

  • 具体任务表现:
    • 对象移动导航、社交移动导航和移动操作任务的定量结果显示,智能体在这些任务中的表现各有不同,移动操作任务最为困难。

诊断研究

  • 感知模块的影响:

    • 感知模块对实验结果有显著影响,使用QwenVL比GPT-4o表现更好。

  • 任务设置的影响:

    • 通过比较感知模块和任务设置对性能的影响,揭示了模型在不同任务中的优势和局限性。

定性结果

  • 交互示例:
    • 展示了一个智能体如何在NPC的帮助下找到目标对象的示例,说明智能体能够通过与NPC的互动来完成任务。

  • 交互过程:
    • 通过交互过程,展示了智能体如何通过询问NPC来获取更多信息,从而成功识别目标对象。

结论

论文提出了GRUtopia项目,旨在为各种机器人提供一个城市规模的仿真交互3D社会。

GRUtopia包括一个大规模的场景数据集GRScenes、一个由LLM驱动的NPC系统GRResidents和一个基准测试GRBench。

实验结果表明,GRUtopia能够有效评估现有算法在具身任务中的表现,并为未来的研究提供了一个全面的评估工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11337.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++模板编程——可变参函数模板之折叠表达式

目录 1. 什么是折叠表达式 2. 一元左折 3. 一元右折 4. 二元左折 5. 二元右折 6. 后记 上一节主要讲解了可变参函数模板和参数包展开,这一节主要讲一下折叠表达式。 1. 什么是折叠表达式 折叠表达式是C17中引入的概念,引入折叠表达式的目的是为了…

python学opencv|读取图像(五十三)原理探索:使用cv.matchTemplate()函数实现最佳图像匹配

【1】引言 前序学习进程中,已经探索了使用cv.matchTemplate()函数实现最佳图像匹配的技巧,并且成功对两个目标进行了匹配。 相关文章链接为:python学opencv|读取图像(五十二)使用cv.matchTemplate()函数实现最佳图像…

《AI大模型开发笔记》DeepSeek技术创新点

一、DeepSeek横空出世 DeepSeek V3 以颠覆性技术架构创新强势破局!革命性的上下文处理机制实现长文本推理成本断崖式下降,综合算力需求锐减90%,开启高效 AI 新纪元! 最新开源的 DeepSeek V3模型不仅以顶尖基准测试成绩比肩业界 …

Sqoop导入MySQL中含有回车换行符的数据

个人博客地址:Sqoop导入MySQL中含有回车换行符的数据 MySQL中的数据如下图: 检查HDFS上的目标文件内容可以看出,回车换行符位置的数据被截断了,导致数据列错位。 Sqoop提供了配置参数,在导入时丢弃掉数据的分隔符&…

标准IO与文件IO 进程与线程

标准IO与文件IO 进程与线程

Go学习:Go语言中if、switch、for语句与其他编程语言中相应语句的格式区别

Go语言中的流程控制语句逻辑结构与其他编程语言类似,格式有些不同。Go语言的流程控制中,包括if、switch、for、range、goto等语句,没有while循环。 目录 1. if 语句 2. switch语句 3. for语句 4. range语句 5. goto语句(不常用…

【网络】传输层协议TCP(重点)

文章目录 1. TCP协议段格式2. 详解TCP2.1 4位首部长度2.2 32位序号与32位确认序号(确认应答机制)2.3 超时重传机制2.4 连接管理机制(3次握手、4次挥手 3个标志位)2.5 16位窗口大小(流量控制)2.6 滑动窗口2.7 3个标志位 16位紧急…

小程序的协同工作与发布

1.小程序API的三大分类 2.小程序管理的概念,以及成员管理两个方面 3.开发者权限说明以及如何维护项目成员 4.小程序版本

【MySQL】语言连接

语言连接 一、下载二、mysql_get_client_info1、函数2、介绍3、示例 三、其他函数1、mysql_init2、mysql_real_connect3、mysql_query4、mysql_store_result5、mysql_free_result6、mysql_num_fields7、mysql_num_rows8、mysql_fetch_fields9、mysql_fetch_row10、mysql_close …

c语言进阶(简单的函数 数组 指针 预处理 文件 结构体)

c语言补充 格式 void函数头 {} 中的是函数体 sum函数名 &#xff08;&#xff09; 参数表 #include <stdio.h>void sum(int begin, int end) {int i;int sum 0;for (i begin ; i < end ; i) {sum i;}printf("%d到%d的和是%d\n", begin, end, sum); …

FastAPI + GraphQL + SQLAlchemy 实现博客系统

本文将详细介绍如何使用 FastAPI、GraphQL&#xff08;Strawberry&#xff09;和 SQLAlchemy 实现一个带有认证功能的博客系统。 技术栈 FastAPI&#xff1a;高性能的 Python Web 框架Strawberry&#xff1a;Python GraphQL 库SQLAlchemy&#xff1a;Python ORM 框架JWT&…

实验9 JSP访问数据库(二)

实验9 JSP访问数据库&#xff08;二&#xff09; 目的&#xff1a; 1、熟悉JDBC的数据库访问模式。 2、掌握预处理语句的使用 实验要求&#xff1a; 1、使用Tomcat作为Web服务器 2、通过JDBC访问数据库&#xff0c;实现增删改查功能的实现 3、要求提交实验报告&#xff0c;将代…

扣子平台音频功能:让声音也能“智能”起来。扣子免费系列教程(14)

在数字化时代&#xff0c;音频内容的重要性不言而喻。无论是在线课程、有声读物&#xff0c;还是各种多媒体应用&#xff0c;音频都是传递信息、增强体验的关键元素。扣子平台的音频功能&#xff0c;为开发者和内容创作者提供了一个强大而灵活的工具&#xff0c;让音频的使用和…

小程序项目-购物-首页与准备

前言 这一节讲一个购物项目 1. 项目介绍与项目文档 我们这里可以打开一个网址 https://applet-base-api-t.itheima.net/docs-uni-shop/index.htm 就可以查看对应的文档 2. 配置uni-app的开发环境 可以先打开这个的官网 https://uniapp.dcloud.net.cn/ 使用这个就可以发布到…

Unity游戏(Assault空对地打击)开发(3) 摄像机的控制

详细步骤 打开My Assets或者Package Manager。 选择Unity Registry。 搜索Cinemachine&#xff0c;找到 Cinemachine包&#xff0c;点击 Install按钮进行安装。 关闭窗口&#xff0c;新建一个FreeLook Camera&#xff0c;如下。 接着新建一个对象Pos&#xff0c;拖到Player下面…

UE编辑器工具

如何自己制作UE小工具提高工作效率 在虚幻编辑器用户界面中&#xff0c;可以使用各种各样的可视化工具来设置项目&#xff0c;设计和构建关卡&#xff0c;创建游戏性交互等等。但有些时候&#xff0c;当你确定了需要编辑器执行的操作后&#xff0c;可能想要通过编程方式调用它…

PVE 中 Debian 虚拟机崩溃后,硬盘数据怎么恢复

问题 在 PVE 中给 Debian 虚拟机新分配硬盘后&#xff0c;通过 Debian 虚拟机开启 Samba 共享该硬盘。如果这个 Debian 虚拟机崩溃后&#xff0c;怎么恢复 Samba 共享硬盘数据。 方法 开启 Samba 共享相关知识&#xff1a;挂载硬盘和开启Samba共享。 新建一个虚拟机&#xf…

微信登录模块封装

文章目录 1.资质申请2.combinations-wx-login-starter1.目录结构2.pom.xml 引入okhttp依赖3.WxLoginProperties.java 属性配置4.WxLoginUtil.java 后端通过 code 获取 access_token的工具类5.WxLoginAutoConfiguration.java 自动配置类6.spring.factories 激活自动配置类 3.com…

Games104——网络游戏的进阶架构

这里写目录标题 前言位移移动插值内插&#xff08;Interpolation&#xff09;外插&#xff08;Extrapolation&#xff09; 命中判定Hit Registration在客户端去判定 在服务器端去判定延迟补偿掩体问题躲进掩体走出掩体 技能前摇本地暴击效果 基础MMO框架分布式架构一致性哈希服…

SQL Server查询计划操作符(7.3)——查询计划相关操作符(5)

7.3. 查询计划相关操作符 38)Flow Distinct:该操作符扫描其输入并对其去重。该操作符从其输入得到每行数据时即将其返回(除非其为重复数据行,此时,该数据行会被抛弃),而Distinct操作符在产生任何输出前将消费所有输入。该操作符为逻辑操作符。该操作符具体如图7.2-38中…