初识Embodied AI

Do not blindly trust anything I say, try to make your own judgement.


目录

1. Definition

2. Survey

3. Summary

3. Reference


1. Definition

1) Internet AI:  用互联网数据比如wiki, youtube等预训练大模型(foundation model),然后将预训练的大模型应用到下游的CV和NLP任务,经典模型如GPT-3,CLIP。(pretraining + finetune)

2) Embodied AI (具象化AI): 将互联网数据上预训练好的大模型,应用到具象化对象上,使其能够与开放世界(open-ended world)交互,并从中学习行为策略,经典任务如玩minecraft,robotic navigation and manipulation。(增加decision making模块)

2. Survey

2.1 (2022) SayCan:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

这篇是谷歌的工作。它的故事是这样的,NLP的研究成果可以使embodied agent能够支持高层次的语义指令,一个应用的方式就是把高层的指令用LLM拆解成多个sub-tasks,比如论文中的例子,如果告诉机器人“I spilled my drink, can you help me?”,这时给定prompt就可以用LLM输出先做什么,再做什么。但这样的应用方式并没有考虑机器人当前自身以及环境的状态,比如可能LLM输出第一步是找个抹布,但实际场景中并没有,即没有和open world做交互。因此,作者们提出借鉴RL中的value function作为一个afforcane function,在拆解高层指令时用上视觉信息,考虑了机器人自身和环境当前的状态。整体流程如下:

这个value function 和执行sub-tasks的language conditioned policy model就用Behavior Cloning或Reinforcement Learning来训练,从而完成整个流程的闭环。

2.2 (2022) LM-Nav:Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

这篇论文是谷歌和伯克利合作的工作,它设计了一个把LLM,VLM,VNM三个大模型统一起来的漂亮框架,但实际上每一环之间还是独立的,VNM中并没有考虑指令信息。

整体pipeline如上图所示,第一步先用VNM中的distance function在采集的数据上建一个拓扑图,图中每个节点是小车经过该位置时采集的一张图片,每条边表示两个节点间是否可达;第二步给定文本指令,用LLM(GPT-3)提取其中的landmarks;第三步用VLM(CLIP)将提取的landmarks grounding到拓扑图中,这样在图中定位了路径点就可以规划一条路径;第四部用VNM中的pose function估计路径中相邻两点间的相对位姿,从而执行规划,同时用distance function做基于视觉相似度匹配的实时定位。

该论文用的VNM是这篇论文一作Dhruv Shah在21年的工作ViNG,它其实就是在18年的SPTM上加了graph pruning和negative mining两个工程上的tricks,算法上没有创新,论文里说他的亮点是第一个在真实小车上实现这个模型的工作,而且只需要用离线数据做监督学习,不需要仿真器训RL。但值得注意的是,ViNG和SPTM里用到的pose function,本质上就是一个Inverse Dynamic Model,IDM可以学习玩电玩也同样可以学习机器人导航任务。

2.3 (2022) VPT:Video PreTraining Learning to Act by Watching Unlabeled Online Videos

这篇论文是openai的工作,它研究如何用网上的unlabled videos训练模型玩Minecraft。具体的做法是先人工标注一小部分数据,标注的是两帧图片之间的action,以此训练一个Inverse Dynamic Model(IDM),然后用IDM去给所有的videos标注每一步所执行的动作,再加上一些数据清洗,最终就有了专家数据,这样就可以用imitation learning+reinforcement learning训练一个policy model了。 

2.4 (2022) MineDOJO:Building Open-Ended Embodied Agents with Internet-Scale Knowledge

这篇是NVIDIA的工作,它同样探讨如何将NLP中的large-scale pre-training范式应用到embodied AI 的任务中,具体的思考切入点是1)如何让embodied agents在与环境中交互学习时能够用大规模的互联网数据作为knowledge base,2)如何设计用于玩Minecraft的reward function。

具体而言,作者们搜集了互联网上关于玩Minecraft的wiki描述、videos、人类玩家的攻略和评论等等,制作成大规模数据集,在该数据集上训练一个CLIP模型,在videos和对应的text描述之间做contrastive learning,预测它们之间的correlation scores,这个scores可以直接作为reward function作为真实Minecraft中的反馈,而不需要任何domain adaptation。

有了这个reward function,就可以用RL(PPO)+self imitation learning交替训练,其中self imitation learning就是用当前训练的PPO模型做rollout,其中成功了的轨迹作为专家轨迹用于imitation learning,是一个提高RL训练的sample efficiency的trick。

这个MineCLIP的模型同样做的是把policy conditioned on vision and language。其中用网络数据训reward function的思想其实和ChatGPT异曲同工,相当于以reward function的形式构造一个teacher,指导一个能够适应人类习惯的policy模型。

2.5 (2022) LID:Pre-Trained Language Models for Interactive Decision-Making

这篇NVIDIA的工作研究如何将预训练的语言模型应用到embodied agent的决策任务中,通过实验验证了预训练作为初始化+微调的范式能够给策略模型提供很强的zero-shot泛化能力;此外还研究了如何在没有专家数据的情况下主动采集数据用于策略模型的训练,做法就是借鉴强化学习里的hindsight experience replay(2017),给agent执行的轨迹打上合适的标签,即使失败的经验,通过把label改成它当前所做的事情,也能从错误的经验中拿来训练。

2.6 (2022) LATTE: LAnguage Trajectory TransformEr

这篇论文是微软的工作,它研究的问题是让机械臂能够根据语言指令修正轨迹。简单来说,给定一个目标物体,它先用传统算法如A*,MPC等产生一条轨迹,再结合语言指令如‘go closer to xxx’, 'stay far from xxx', 'drive a bit away from xxx' 等,用transformer decoder输出修正后的轨迹。

传统算法生成的轨迹用transfomer encoder编码,输入的语言指令和当前视觉图像由预训练好的BERT和CLIP模型编码,最终后者与前者一起输入到transformer decoder中,通过cross attention将轨迹conditioned在语言和视觉信息上,并序列化输出新的轨迹。模型的训练采用imitation learning。

这篇工作也是典型地将policy conditioned在特定的视觉和语言信息上。整体框架虽然采用了transformer的结构,但其实也很常见,主要还是提出了一个将预训练模型应用到人机交互过程的范式。

2.7 (2022) VIMA: GENERAL ROBOT MANIPULATION WITH MULTIMODAL PROMPTS

这篇NVIDIA的工作同样在研究一个通用robot agent的人机交互接口应该是怎样的。一个有意思的发现是人类指令文本prompt可以由文本和图像的交替(interleave)构成,而不是纯文本,这样的好处是可以通过特定物体的图像指定更为特定和准确的指令,比如下图左侧展示的把指令文本中的objects直接换成当前场景中该物体的图像;另一个观察是,过去要让机器人完成不同的操作任务需要在不同的数据集上训练不同的policy model,不能完成模型的统一,而如果改成这种多模态的prompt,则可以更好地迁移对物体和对动作的理解与策略。厉害的点在于它能够超过GATO的zero-shot能力。

该算法用的是经典的在transformer中交替做self-attention和cross-attention的技术,同样借鉴自NLP的研究成果。首先把语言文本进行分词得到word token,然后用Mask RCNN把当前场景中的物体检测出来,输送到ViT中得到object token,这样把两者结合就得到多模态prompt,并将其输入到预训练的T5模型的得到embeddings,最后通过cross attention的方式注入到动作策略中。这里动作的生成同样用的Transformer decoder做序列化决策。

2.8 (2022) RT-1: Robotics Transformer for real-world control at scale

 一个端到端输出控制策略的大模型,sequence of images和instruction分别作为输入,没有作为multi-modal prompt。

2.9 (2023) Chatgpt for Robotics

Microsoft的原文对流程也写的很直接简单,它定义了新的robotics工程范式,用chatgpt帮忙写代码。具体方法就是先预定义一些API(相当于Import xxx),然后写一些prompt描述任务,以及说明哪些api可以用,从而让chatgpt自己调用API来写代码,然后人对代码给出反馈,chatgpt基于反馈不断纠正代码,最后用来给机器人执行。

这个就有点抽象了,一是人去写prompt需要先熟悉prompt engineering,而且语文表述不清楚还会影响代码质量;二是人如何去评估算法性能,没有像做算法题那样有测试数据或者实际去运行代码,单靠肉眼很难看出来有没问题。

2.10 (2023) PaLM-E: An Embodied Multimodal Language Model

这篇3月6日新出的谷歌工作,其实就是saycan和vima的结合版。它同样像saycan一样用LLM(PaLM)对人类指令做拆解,输出的是文本形式的task planning结果,比如“先做什么再做什么”之类的;而给模型的指令由saycan中的纯文本形式改成了类似vima那种自由动态的多模态interleave形式,与vima不同的是PaLM-E的模态更多,包括了image-level的语义表征、object-level的表征集、物体或机器人的连续的位姿信号,以及用prompt给同一场景多个相同物体做了标识(referrals);另一个与vima的不同点是vima输出的直接是control(low-level) policy,而PaLM-E输出的是high-level policy,PaLM-E的low-level policy则直接用预训练好的RT-1,一个基于观测输出控制指令的端到端模型。

总结:

从表征设计的角度,PaLM-E在使用多模态输入的PaLM完成Visual Q&A任务的同时接了一个适用于embodied 领域的low-level policy来实现loop closure,使其能够让输出的high-level policy condition在当前的观测和长时序的规划中,反过来也借助VQA的能力让模型对当前的观测有了更加深入的理解(开始尝试让模型理解观测中的物理学:原文Figure2中的Physical prediction)。

从训练方式的角度,PaLM-E的创新点是实验验证了multi-task transfer learning能用大量用Internet vision-language数据加极少(8.9%)的robot相关样本就能训到好的效果。

3. Summary

Embodied AI不算是新领域,但近年来NLP的预训练模型的成功让该领域掀起了新一轮的浪潮,各大高校和公司都在布局这个方向,可以预见,CV+NLP+RL的大一统就在不远的将来。目前的研究还处在新一轮浪潮的初级阶段,研究点主要有:

1)如何将NLP中的预训练模型+微调的范式应用到embodied agent的决策任务中([2][3][4][5]),其中预训练一般是在互联网数据比如videos、或者仿真器中生成的专家经验、或者用hindsight relabelling从自己的历史轨迹中生成数据;embodied agent的决策任务也分为high-level policy做子任务拆解和直接端到端输出low-level policy两种;此外,还要考虑预训练语言模型如何与现实环境交互的问题([1][4][7]),也就是将策略condition在当前机器人自身状态和环境状态上,即affordance。

2)如何设计一个支持通用决策大模型的人机交互接口([6][7]),一般做法是基于NLP的transformer框架,用cross attention的方式引入人类给定的语言文本指令和当前视觉图像信息。

3. Reference

Blogs: 

最近一些Embodied AI工作的总结(SayCan/LM-Nav/WebShop/Gato/VPT/MINEDOJO) - 知乎

PR Perspective Ⅰ:Embodied AI 的新浪潮 —— new generation of AI - 知乎

GitHub - YaoMarkMu/Awesome-Pretrained-RL

Papers:

2022 LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

2022 MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

2022 VPT: Video PreTraining Learning to Act by Watching Unlabeled Online Videos

2022 Pre-Trained Language Models for Interactive Decision-Making

2022 Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

2022 LATTE: LAnguage Trajectory TransformEr

2022 VIMA: GENERAL ROBOT MANIPULATION WITH MULTIMODAL PROMPTS

2022 RT-1: Robotics Transformer for real-world control at scale

2023 ChatGPT for Robotics: Design Principles and Model Abilities

2023 PaLM-E: An Embodied Multimodal Language Model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47695.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你知道会议录音识别怎么弄吗

平时工作的时候,有些朋友需要将录音转化成文字。例如,在会议上做记录的时候,有时会因为会议内容太多而跟不上,所以我们通常会选择录音的方式对会议过程进行记录,再将录音内容识别成文字,这样可以极大地提升…

会议记录怎样做得又快又好?一分钟学会录音转文字

最近有几个朋友问我会议记录要怎么记才能又快又好的问题,经验之谈,领导大会小会不断,作为助理,会议记录不仅是基本功,更是升职加薪的重要评判,以下分享我做会议记录的方法。 首先,遵照会议记录要…

java 调用科大讯飞 实现会议录音,语音转写会议既要功能

功能要求:使用java 调用科大讯飞 实现会议录音,语音转写会议既要功能。 科大讯飞官网有api,还有具体的实例,可以实现关于语音需求的大部分功能。地址如下: https://www.xfyun.cn/doc/platform/quickguide.html。 先注册…

关于语音会议自动记录的大概设计思路

关于语音会议的大概设计草图如下: 根据流程图可以看出,我一共分了六个模块分别命名为: A_preprocessor(预处理器):用来对音频进行预处理A_file_store(文件存储):用来管理…

还在找会议纪要录音转文字软件哪个好?

音频转文字是一项非常便利和实用的技术。无论是学习教育、会议记录、新闻传播还是法律领域,都可以通过使用该技术更好地记录和整理相关内容,提高效率和准确度。那么你知道录音文件转文字软件哪个好吗?这篇文章给你推荐三款非常好用的录音文件…

语音识别会议级别

人工智能的会议没有专注于语音领域的,语音算是ai的一个实际应用方向吧,所以也能投ai的会议和期刊 列一下自然语言处理(NLP)这个小方向的: 会议(C): EMNLP (Empirical Methods in Natural Language Processing) A EACL (Annual Conference of the Eu…

【实战】一文讲透ChatGPT最新功能Custom Instructions

收录于 AI实战教程 合集 嗨,又见面啦!😎 我们来更一篇最近大家非常关心的,但很多小伙伴找不到入口,和落地教程的,ChatGPT的最新功能Custom Instructions的实战贴~ 北京时间2023-07-21,Openai…

外贸网站最新的英文在线跟踪聊天咨询管理软件

十几年前,有了解外贸英文网站上的在线跟踪聊天咨询及简单管理软件;当时觉得只需要Email就可以了。老外必竟常用Email,网页上留Email, 老外就可以联系到我们。 当时也出现很多英文版的在线跟踪聊天咨询软件,且都是免费提供&#xf…

SAP-MM-内向外向交货单

1、内向&外向交货单概念 外向交货(outbound delivery)是用在客户与企业之间的交货单,而内向交货(inbound delivery)则是用在供应商与企业之间的交货单;换言之,外向交货多用于SD 模块&#…

SAP 内向交货单介绍

SAP 内向交货单介绍 外向交货(outbound delivery)是用在顾客与企业之间的交货单,而内向交货(inbound delivery)则是用在供应商与企业之间的交货单;换言之,外向交货多用于SD 模块,而…

十个数字,看懂AI现状

这十个代表性数字从不同的角度切入,揭示了AI的发展现状和潜力。 AI作为当今世界的热门话题,正在引领着我们进入一种全新的智能时代。但是,很多人对AI的认识还停留在表面,并不了解AI是怎样逐渐渗透到我们的生活和工作中&#xff0c…

BFT 最前线 | 谷歌举办 I/O 23 发布会,对标必应,百度搜索小范围公测对话功能,盖茨称AI利大于弊

文 | BFT机器人 01 谷歌举办 I/O 23 发布会,以 AI 为核心发布一系列新工具 北京时间 5 月 11 日凌晨,谷歌举办了今年的 Google I/O 开发者大会。比起去年,强调「整合全球信息,使人人都能从访问中受益」的使命,谷歌 CEO…

针对小度在家的设备分析(以1C为例,非破解)

概述 语音类的机器人已经接触和分析了很多了,但百度出的类似产品没有写过! 主要是没有机会接触到实体的机器,大写的尴尬。 因对接的需要,特申请了一台,那就借此机会把玩一下吧。 拆机的部分请移步他处,…

【两天搞定小米商城】【第四步】小米商城之左边导航和右边轮播图部分

效果图&#xff1a; &#xff08;图片文字方面还是老风格&#xff0c;重复重复再重复&#xff0c;小伙伴们也可以尝试把官网的内容如实填充~&#xff09; HTML: <!-- banner开始 --><div class"banner"><div class"wrap"><div class…

“小度小度”开启AI硬件的“量贩”时代

2020年我们经历了很多事情&#xff0c;而这些经历正在深刻影响到众多科技市场&#xff0c;甚至作用于AI产业的底层规律。 例如说&#xff0c;疫情中AI抗疫的身影让这门技术成为社会明星&#xff1b;更多宅在家里的闲暇时间让我们更喜欢琢磨硬件和产品&#xff1b;对家人的惦念&…

小米商城左侧菜单布局和效果实现(分析+代码)

目录 效果展示 结构分析 菜单栏 内容盒子 JS实现 总结 效果展示 左边菜单栏&#xff0c;鼠标经过菜单栏&#xff0c;对应的背景颜色会发生改变。右边内容盒子&#xff0c;有一个边框&#xff0c;宽度会随着显示的内容的而变化。鼠标经过左边的菜单栏&#xff0c;右边对应…

web端 小米商城网站总结

一 小米商城页面的分析 目前市面上主流的布局为float布局 , 本人通过flex布局实现了一遍 其中轮播图使用了swiper插件 图标使用了iconfont 尽可能的不使用定位 此为自我规划的结构分析 , 如图所示 二 小米商城搭建的细节 1 清楚整个页面的整体布局&#xff0c;先整体再局部…

vue+elementui实现app布局小米商城,样式美观大方,功能完整

目录 一、项目效果在线预览 二、效果图 1.首页效果图 2.分类&#xff0c;动态分类商品数据根据所属分类动态切换 3.购物车&#xff0c;动态添加购物车&#xff08;增、删、改、查&#xff09; 4.我的 5.登录注册 6.商品详情 7.搜索&#xff08;动态模糊搜索、搜索历史…

分析小米商城左侧菜单的布局和效果实现

小米左侧菜单如图&#xff1a; 也就是说&#xff0c;在没有点击左侧菜单的时候&#xff0c;背景是一个轮播图&#xff0c;一旦点击了左侧菜单&#xff0c;或者说鼠标在左侧菜单上滑动&#xff0c;那么就会触发左侧菜单的动画演示&#xff0c;这次就是来分析动画演示的具体是怎么…

前端项目 仿小米商城

这是本人入手前端以来第一个项目&#xff0c;不算简单也不算难都是一些很基础但在HTML和CSS中算是比较核心的东西&#xff0c;比如CSS中的定位&#xff0c;各种选择器都有所涉及。这次做的是一个商城首页&#xff0c;像这种类型的有很多都可以拿来练手&#xff0c;望大家指教&a…