CMU\谷歌等最新研究综述:面向通用机器人的基础模型

构建能够在任何环境中无缝操作、使用各种技能处理不同物体和完成多样化任务的通用机器人,一直是人工智能领域的长期目标。然而,不幸的是,大多数现有的机器人系统受到限制——它们被设计用于特定任务、在特定数据集上进行训练,并在特定环境中部署。这些系统通常需要大量标注数据,依赖于特定任务的模型,在现实世界场景中部署时存在诸多泛化问题,并且难以对分布变化保持鲁棒性。
受到网络规模大容量预训练模型(即基础模型)在自然语言处理(NLP)和计算机视觉(CV)等研究领域开放集表现和内容生成能力印象深刻的启发,我们将本综述(survey)致力于探索(i)如何将现有的NLP和CV领域的基础模型应用于机器人技术领域,以及(ii)专门针对机器人技术的基础模型将会是什么样子。
在这里插入图片描述

我们首先概述了传统机器人系统的构成及其普遍适用性的基本障碍。接着,我们建立了一个分类体系,讨论了当前利用现有基础模型进行机器人技术探索和开发针对机器人技术的模型的工作。最后,我们讨论了使用基础模型启用通用机器人系统的关键挑战和有前景的未来发展方向。我们鼓励读者查看我们的“活动”GitHub仓库,其中包括本综述中审阅的论文以及相关项目和用于开发机器人技术基础模型的仓库资源:https://robotics-fm-survey.github.io/。
在这里插入图片描述

我们在开发能够适应不同环境并在其中运作的自治机器人系统方面仍面临许多挑战。以往的机器人感知系统利用传统深度学习方法,通常需要大量标记数据来训练监督学习模型;与此同时,为这些大型数据集构建众包标记过程仍然相当昂贵。此外,由于传统监督学习方法的泛化能力有限,训练出的模型通常需要精心设计的领域适应技术才能将这些模型部署到特定场景或任务,这往往需要进一步的数据收集和标记。类似地,传统的机器人规划和控制方法通常需要精确建模世界、自主体的动力学和/或其他代理的行为。这些模型针对每个特定环境或任务建立,并且在发生变化时通常需要重新构建,暴露了它们的有限可迁移性;事实上,在许多情况下,构建有效模型要么太昂贵,要么不切实际。尽管基于深度(强化)学习的运动规划和控制方法可以帮助缓解这些问题,但它们也仍然受到分布变化和泛化能力降低的困扰。

在构建具有泛化能力的机器人系统所面临的挑战的同时,我们也注意到自然语言处理(NLP)和计算机视觉(CV)领域的显著进步——引入了大型语言模型(LLMs)用于NLP,使用扩散模型进行高保真图像生成,以及使用大容量视觉模型和视觉语言模型(VLMs)实现CV任务的零次/少次学习泛化。这些被称为“基础模型”,或简称为大型预训练模型(LPTMS),这些大容量视觉和语言模型也已应用于机器人技术领域,有潜力赋予机器人系统开放世界的感知、任务规划甚至运动控制能力。

除了直接应用现有的视觉和/或语言基础模型于机器人任务之外,我们也看到了开发更多针对机器人的特定模型的相当潜力,例如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型在不同任务甚至不同实体上显示出了极大的泛化能力。视觉/语言基础模型也已直接应用于机器人任务,显示了将不同机器人模块融合为单一统一模型的可能性。尽管我们看到将视觉和语言基础模型应用于机器人任务以及开发新的机器人基础模型的有前景的应用,但许多机器人技术的挑战仍然难以企及。从实际部署的角度来看,模型通常无法复制,缺乏多实体泛化能力,或者无法准确捕捉环境中可行(或可接受)的情况。此外,大多数出版物利用基于Transformer的架构,专注于物体和场景的语义感知、任务级规划或控制;其他可能受益于跨领域泛化能力的机器人系统组成部分尚未被充分探索——例如,用于世界动力学的基础模型或可以进行符号推理的基础模型。最后,我们想强调需要更多大规模实际数据以及具有多样化机器人任务的高保真模拟器。

在本文中,我们调查了基础模型在机器人技术中的应用,并旨在理解基础模型如何帮助缓解核心机器人技术挑战。我们使用“机器人技术基础模型”一词来包括两个不同的方面:(1)将现有的(主要是)视觉和语言模型应用于机器人技术,主要通过零样本学习和情境学习;以及(2)使用机器人生成的数据开发和利用专门针对机器人任务的机器人基础模型。我们总结了机器人技术基础模型论文的方法论,并对我们调查的论文的实验结果进行了元分析。

本文的主要组成部分在图1中进行了总结。本文的整体结构如图2所述。在第2节中,我们简要介绍了基础模型时代之前的机器人研究,并讨论了基础模型的基础知识。在第3节中,我们列举了机器人研究中的挑战,并讨论了基础模型可能如何缓解这些挑战。在第4节中,我们总结了机器人技术中基础模型的当前研究现状。最后,在第6节中,我们提出了可能对这一研究交叉领域产生重大影响的潜在研究方向。
在这里插入图片描述

机器人技术中的挑战

在本节中,我们总结了典型机器人系统中各种模块面临的五个核心挑战,每个挑战都在以下小节中详细介绍。尽管类似的挑战已在先前文献中讨论过(见第1.2节),但本节主要关注那些可能通过适当利用基础模型来解决的挑战,这一点从当前研究结果中得到了证据。我们还在本节中描述了分类法,以便在图3中更容易回顾。

在这里插入图片描述

在这里插入图片描述

用于机器人技术的基础模型
在本节中,我们重点讨论在机器人技术中零次学习应用视觉和语言基础模型。这主要包括用于机器人感知的VLMs的零样本学习部署,在任务级别和运动级别规划以及动作生成方面的LLMs的情境学习。我们在图6中展示了一些代表性的工作。
在这里插入图片描述

机器人基础模型(RFMs)

随着包含真实机器人的状态-动作对的机器人数据集数量的增加,机器人基础模型(RFMs)的类别也变得越来越可行。这些模型的特点是使用机器人数据来训练,以解决机器人任务。在本小节中,我们总结并讨论了不同类型的RFMs。我们首先介绍能够在第2.1节中的一个机器人模块内执行一组任务的RFMs,这被定义为单一目的的机器人基础模型。例如,一个能够生成用于控制机器人的低级动作的RFM,或一个能够生成更高级别运动规划的模型。之后,我们介绍能够在多个机器人模块中执行任务的RFMs,因此它们是能够执行感知、控制甚至非机器人任务的通用模型。

如何利用基础模型解决机器人技术挑战

在第3节中,我们列出了机器人技术中的五个主要挑战。在本节中,我们总结了基础模型——无论是视觉和语言模型还是机器人基础模型——如何以更有组织的方式帮助解决这些挑战。

所有与视觉信息相关的基础模型,如VFMs、VLMs和VGMs,都用于机器人技术中的感知模块。而LLMs则更加多功能,可以应用于规划和控制领域。我们还在这里列出了RFMs,这些机器人基础模型通常用于规划和动作生成模块。我们在表1中总结了基础模型如何解决前述的机器人技术挑战。从这个表中我们可以看出,所有基础模型都擅长于各种机器人模块任务的泛化。此外,LLMs尤其擅长于任务规范化。另一方面,RFMs擅长处理动力学模型的挑战,因为大多数RFMs是无模型方法。

对于机器人感知,泛化能力和模型的挑战是相互联系的,因为,如果感知模型已经具有非常好的泛化能力,那么就没有必要为了领域适应或额外的微调而获取更多数据。此外,解决安全挑战的呼声在很大程度上缺失,我们将在第6节中讨论这个特殊问题。用于泛化的基础模型 零次泛化是当前基础模型的最显著特征之一。机器人技术几乎在所有方面和模块都受益于基础模型的泛化能力。首先,VLM和VFM作为默认的机器人感知模型在感知方面的泛化能力是一个很好的选择。第二方面是任务级规划的泛化能力,由LLMs生成任务计划的细节。第三个方面是运动规划和控制方面的泛化能力,通过利用RFMs的力量。

用于数据稀缺的基础模型 基础模型在解决机器人技术中的数据稀缺问题上至关重要。它们为使用最少的特定数据学习和适应新任务提供了坚实的基础。例如,最近的方法利用基础模型生成数据来帮助训练机器人,如机器人轨迹和仿真。这些模型擅长从少量示例中学习,使机器人能够使用有限的数据快速适应新任务。从这个角度来看,解决数据稀缺问题相当于解决机器人技术中的泛化能力问题。除此之外,基础模型——尤其是LLMs和VGMs——可以生成用于训练感知模块(见上面的4.1.5节)和任务规范化的机器人技术数据集。

用于减轻模型要求的基础模型 正如第3.3节所讨论的,建立或学习一个模型——无论是环境地图、世界模型还是环境动力学模型——对于解决机器人技术问题至关重要,尤其是在运动规划和控制方面。然而,基础模型展现的强大的少/零次泛化能力可能会打破这一要求。这包括使用LLMs生成任务计划,使用RFMs学习无模型的端到端控制策略等。

用于任务规范化的基础模型 任务规范化作为语言提示,目标图像,展示任务的人类视频,奖励,轨迹粗略草图,政策草图和手绘图像,使目标规范化以一种更自然、类人的格式实现。多模态基础模型允许用户不仅指定目标,还可以通过对话解决歧义。最近在理解人机交互领域中的信任和意图识别方面的工作开辟了我们理解人类如何使用显式和隐式线索传达任务规范化的新范式。虽然取得了显著进展,但最近在LLMs提示工程方面的工作表明,即使只有一个模态,也很难生成相关输出。视觉-语言模型被证明在任务规范化方面尤其擅长,显示出解决机器人技术问题的潜力。扩展基于视觉-语言的任务规范化的理念,探索了使用更自然的输入,如从互联网获取的图像,实现多模态任务规范化的方法。Brohan等人进一步探索了从任务无关数据进行零次转移的这一理念,提出了一个具有扩展模型属性的新型模型类。该模型将高维输入和输出,包括摄像头图像、指令和马达命令编码成紧凑的令牌表示,以实现移动操纵器的实时控制。

用于不确定性和安全的基础模型 尽管不确定性和安全是机器人技术中的关键问题,但使用机器人技术基础模型解决这些问题仍然未被充分探索。现有的工作,如KNOWNO,提出了一种测量和对齐基于LLM的任务规划器不确定性的框架。最近在链式思考提示、开放词汇学习和LLMs中幻觉识别方面的进展可能为解决这些挑战开辟新途径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/222343.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

deCasteljau 递推

递推函数 P i r ( t ) ( 1 − t ) P i r − 1 ( t ) t P i 1 r − 1 ( t ) , \begin{equation} \bm{P}_{i}^r (t) (1-t) \bm{P}_{i}^{r-1} (t) t \bm{P}_{i1}^{r-1} (t), \end{equation} Pir​(t)(1−t)Pir−1​(t)tPi1r−1​(t),​​ …

在ClickHouse数据库中启用预测功能

在这篇博文中,我们将介绍如何将机器学习支持的预测功能与 ClickHouse 数据库集成。ClickHouse 是一个快速、开源、面向列的 SQL 数据库,对于数据分析和实时分析非常有用。该项目由 ClickHouse, Inc. 维护和支持。我们将探索它在需要数据准备以…

Java对接腾讯多人音视频房间回调接口示例

在前面我们已经对接好了腾讯多人音视频房间相关内容:Java对接腾讯多人音视频房间示例 为了完善业务逻辑,我们还需要对接它的一些回调接口 官方文档地址 主要就下面这些 这里因为比较简单直接上代码 里面有些工具类和上一章一样这里就没贴,需要…

【高效开发工具系列】eclipse部署web项目

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

15张超级有用的电商模版

电商即电子商务(Electronic Commerce) ,是利用计算机技术、网络技术和远程通信技术,实现电子化、数字化和网络化的整个商务过程。本专题包含电商运营策略、电商平台底层逻辑、营销流程设计等模板内容。 如果你是一个电商小白,你需要以下的电…

大型医院PACS系统源码,影像存储与传输系统源码,支持多种图像处理及三维重建功能

PACS系统是医院影像科室中应用的一种系统,主要用于获取、传输、存档和处理医学影像。它通过各种接口,如模拟、DICOM和网络,以数字化的方式将各种医学影像,如核磁共振、CT扫描、超声波等保存起来,并在需要时能够快速调取…

Enge问题解决教程

目录 解决问题的一般步骤: 针对"Enge问题"的具体建议: 以下是一些普遍适用的解决问题的方法: 以下是一些更深入的Enge浏览器问题和解决办法: 浏览器性能问题: 浏览器插件与网站冲突: 浏览…

新型智慧视频监控系统:基于TSINGSEE青犀边缘计算AI视频识别技术的应用

边缘计算AI智能识别技术在视频监控领域的应用有很多。这项技术结合了边缘计算和人工智能技术,通过在摄像头或网关设备上运行AI算法,可以在现场实时处理和分析视频数据,从而实现智能识别和分析。目前来说,边缘计算AI视频智能技术可…

Leetcode 45 跳跃游戏 II

题意理解: 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。 还是从初始坐标i0的位置到达最后一个元素,但是问题不是能不能跳到,而是最少几步能跳到最后一个元素。 目标&…

Java|IDEA 中添加编译参数 --add-exports

方法1 File > Settings > Build, Execution, Deployment > Compiler > Java Compiler > Javac Options > Override compiler parameters per-module 点击: 点击OK 双击Compliation options,输入后回车: 方法2 找到出错…

阻塞 IO(BIO)

文章目录 阻塞 IO(BIO)模型等待队列头init_waitqueue_headDECLARE_WAIT_QUEUE_HEAD 等待队列项使用方法驱动程序应用程序模块使用参考 阻塞 IO(BIO) 模型 等待队列是内核实现阻塞和唤醒的内核机制。 等待队列以循环链表为基础结构,链表头和链表项分别为等待队列头和…

27、ResNet50处理STEW数据集,用于情感三分类+全备的代码

1、数据介绍 IEEE-Datasets-STEW:SIMULTANEOUS TASK EEG WORKLOAD DATASET : 该数据集由48名受试者的原始EEG数据组成,他们参加了利用SIMKAP多任务测试进行的多任务工作负荷实验。受试者在休息时的大脑活动也在测试前被记录下来,也包括在其…

【SpringBoot】之Security进阶使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是君易--鑨,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《SpringBoot开发之Security系列》。&#x1f3af…

变分自动编码器【03/3】:使用 Docker 和 Bash 脚本进行超参数调整

一、说明 在深入研究第 1 部分中的介绍和实现,并在第 2 部分中探索训练过程之后,我们现在将重点转向在第 3 部分中通过超参数调整来优化模型的性能。要访问本系列的完整代码,请访问我们的 GitHub 存储库在GitHub - asokraju/ImageAutoEncoder…

直播电商“去网红化”势在必行,AI数字人打造品牌专属IP

近年来,网红直播带货“翻车”事件频发,给品牌商带来了信任危机和负面口碑的困扰,严重损害了企业的声誉。这证明强大的个人IP,对于吸引粉丝和流量确实能起到巨大的好处,堪称“金牌销售”,但太过强势的个人IP属性也会给企业带来一定风险&#x…

计算机网络:应用层

0 本节主要内容 问题描述 解决思路 1 问题描述 不同的网络服务: DNS:用来把人们使用的机器名字(域名)转换为 IP 地址;DHCP:允许一台计算机加入网络和获取 IP 地址,而不用手工配置&#xff1…

回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾: 18日线上直播回顾 18日上午9:30,AISHELL & SpeechHome CEO卜辉宣布研讨会开始,并简要介绍本次研讨会的筹备情况以及报告内容。随后,CCF语音对话与听觉专委会副主任、清华大学教授郑方&#xff0c…

Spring AOP入门指南:轻松掌握面向切面编程的基础知识

面向切面编程 1,AOP简介1.1 什么是AOP?1.2 AOP作用1.3 AOP核心概念 2,AOP入门案例2.1 需求分析2.2 思路分析2.3 环境准备2.4 AOP实现步骤步骤1:添加依赖步骤2:定义接口与实现类步骤3:定义通知类和通知步骤4:定义切入点步骤5:制作切面步骤6:将通知类配给…

7-1 建立二叉搜索树并查找父结点(PTA - 数据结构)

按输入顺序建立二叉搜索树,并搜索某一结点,输出其父结点。 输入格式: 输入有三行: 第一行是n值,表示有n个结点; 第二行有n个整数,分别代表n个结点的数据值; 第三行是x,表示要搜索值…

【已解决】修改了网站的class样式name值,会影响SEO,搜索引擎抓取网站及排名吗?

问题: 修改了网站的class样式name值,会影响搜索引擎抓取网站及排名吗? 解答: 如果你仅仅修改了网站class样式的名称,而没有改变网站的结构和内容,那么搜索引擎通常不会因此而影响它对网站的抓取和排名。但…