5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度

关注并星标

从此不迷路

计算机视觉研究院

c45837ab35cd98a6a6144d22197a0837.gif

d52bdc45a50adbe74b001da110656931.gif

c240ddf1ef308e379321cacb9c844459.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

机器人越来越像人了!谷歌等的这项研究将现实世界的信息通过传感器纳入多模态语言模型,不但能执行机器人任务,还具有视觉问答、文本补全等功能。

转自《机器之心》

一直以来,人们都想拥有一款能听懂吩咐的机器人,比如「请帮我热一下午餐」,「请把遥控器帮我拿过来」。这些指令听上去简单,但一旦让机器人去做,失误率还是很高的。

在这一过程中,机器人需要克服很多困难,比如理解指令、分解任务、规划路线、识别物体等等,涉及到的能力跨语言、视觉等多个模态。

为了让机器人更加擅长这些任务,不少研究者都在尝试将大型语言模型与机器人结合起来,让大模型充当机器人的「大脑」,从而更出色地完成各项任务。这是「具身智能」领域一个比较热门的研究方向。

c3d7b277f0ae5b129b83a86da31db1de.png

具身智能是具有身体体验的智能,是第一人称(而非第三人称)视角的智能。图源:卢策吾演讲 PPT,参见文末《为什么说具身智能是通往 AGI 值得探索的方向?上海交大教授卢策吾深度解读》。

在过去的一年中,我们已经看到了谷歌的 SayCan、UC 伯克利的 LM Nav 等多项工作。前者能够让机器人在大型语言模型的帮助下,完成一个包含 16 个步骤的长任务;后者则用三个大模型(视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP)教会了机器人在不看地图的情况下按照语言指令到达目的地。

a40a2c5e1103cf0ce489ebf33d0d98c4.gif

单独使用大型语言模型或者将视觉、语言、视觉 - 语言模型组合起来使用似乎都给机器人提供了很大的帮助,那如果直接训练一个更大的、单一的大型多模态模型呢?

最近,谷歌在这一方向上投入了大量资源,推出了一个参数量达 5620 亿的具身多模态语言模型 —— PaLM-E。具体来说, PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),是目前已知的最大的视觉 - 语言模型。

Vit 和 PaLM 融合的视频

在实验中,这个模型在很多任务中都表现出了强大的能力。

比如,在机器人任务中,它可以帮你从抽屉里拿东西,然后走过去递给你。在这一过程中,它既要听懂你的语言指令,还要会识别指定物体并规划任务步骤。

抽屉里拿东西

接下来,研究人员让机器人完成一个颜色归类任务,但给出的输入不限于语言指令,还掺杂了视觉信息。

69288a92ec41003f99f7358551d2680a.png

结果显示,有 PaLM-E 加持的机器人确实会排列积木,把相同的颜色块放到一起:

7a299ab19b0f8357fd9e0c3781c288a8.gif

‍你还能命令 PaLM-E 将红色积木推到咖啡杯旁边而不会出错:

b41f4c8be6c443ddfa89303bec74efa6.gif

除了解锁机器人相关任务外,PaLM-E 还是一个合格的视觉 - 语言或纯语言模型,具有视觉问答、文本补全等功能。

f7cc3012da8509886f3b24edaa9f91d5.png

如下图,给定一张图像,并向 PaLM-E 提问:「如果一个机器人想在这里发挥作用,它应该采取哪些步骤?」PaLM-E 给出的回答是:首先清理桌子,清理垃圾,然后挪动椅子,擦椅子,最后把椅子放回原处。PaLM-E 的回答看起来很符合逻辑。

21f5f03ed0c50352c75c23b03bd0c280.png

除了谷歌之外,微软最近似乎也在探索大模型与机器人的结合。前段时间,他们发表了一篇论文,探讨如何将 ChatGPT 的功能扩展到机器人领域,从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。

bed7cbee54de79f99cc5c79f3164ebad.gif

正如上海交大教授卢策吾所说,早在 1950 年,图灵就在他的论文中首次提出了具身智能的概念,在之后的几十年里,大家都觉得这是一个很重要的概念,但具身智能并没有取得很大的进展,因为当时的技术还不足以支撑其发展。到了今天,多学科的技术已经改变了这一局面,可以让我们去研究具身智能的一些本质问题。

接下来,我们将详细介绍 PaLM-E 这篇论文。

论文概览

首先我们先来了解一下背景,才能更好的理解本文。

众所周知,大型语言模型(LLM)在各个领域表现出强大的推理能力,包括对话、逐步推理、解决数学问题、代码编写等方面。然而,这种模型在现实世界中又面临推理性能不好的短板,即虽然 LLM 是在大型数据集上训练而成,可以生成与物理世界相关的表示,但将这些表示与现实世界中的视觉和物理传感器连接起来时又存在很多困难。

2022 年 Ahn 等人在 SayCan 的论文中提出将 LLM 的输出与学习到的机器人策略相结合以做出决策,但其局限性在于 LLM 本身仅提供文本输入,对图像输入还没有涉及,这对于许多任务来说是不够的。此外,当前 SOTA 视觉语言模型是在典型的视觉语言任务(如视觉问答(VQA))上训练而成,不能直接用来解决机器人推理任务。

谷歌推出的具身语言模型 PaLM-E 可以很好地解决上述问题,它可以将连续的传感器数据直接整合到语言模型里,从而使得语言模型能够做出更有根据的推理。值得一提的是,他们之所以将此模型命名为 PaLM-E,是因为本文使用了 2022 年谷歌发布的 PaLM 作为预训练语言模型。

PaLM-E-562B 在 OK-VQA 基准上实现了 SOTA 性能,而不依赖特定于任务的微调。除此以外,PaLM-E-562B 在其他任务上也表现良好,包括零样本多模态思维链 (CoT) 推理、少样本提示、OCR-free 数学推理和多图像推理等。

025c5ea9b83d7d482aa94b33b79753cf.png

  • 论文地址:https://palm-e.github.io/assets/palm-e.pdf

  • 论文主页:https://palm-e.github.io/

方法概览

至于实现过程,总结而言,PaLM-E 的架构思想是将连续的具身观察结果(例如图像、状态估计或其他传感器模态)注入到预训练语言模型的语言嵌入空间中。PaLM-E 将连续信息以类似于语言 token 的方式注入到语言模型中。它不是那种常见的编码器 - 解码器架构模型,而是一种只具有解码器的 LLM。

具体到输入上,PaLM-E 的输入包括文本和(多个)连续观察。与这些观察相对应的多模态 token 与文本交错形成多模态句子。例如多模态句子 Q(给出一个提问):What happened between  <img_1> and  <img_2> ? 其中 < img_i > 表示图像的嵌入。PaLM-E 的输出是由模型自回归生成的文本,可以是问题的答案,也可以是 PaLM-E 以文本形式生成的应该由机器人执行的一系列决策。 

19c39264603d399684537ac9ebda2902.png

在论文第 3 章,作者详细介绍了他们使用的方法。

有人猜测,这项工作可能是受到「红色代码」影响而做出的成果?三个月前谷歌拉响「红色代码」警报,以应对 ChatGPT 带来的威胁。不过这也只是一种猜测,总归,谷歌是将传感器数据给整合到语言模型里了。

5cb94ab550b074182f64e7d5e4b7b1a6.png

实验结果

该研究进行了大量的实验。首先是模型的迁移能力:下图表明,在不同任务和数据集上训练完成 PaLM-E 显著优于那些在单独任务上训练的模型。

8bf469eedfb9585cae0032f9dfe3fed7.png

图 4 表明,LLM 在 full mixture 训练模式下,比其他训练模式性能提高了一倍以上。

8ea3dec4c6c856dcbdea0d3eb247b887.png

表 9 显示了不同模型在移动操作环境下对故障检测的能力,评价标准为精度和召回:

ab207971ef1c282d56b61df3012efa03.png

同样的,下表 2 为模型在模拟环境中对规划任务的结果

fda4c88fc69585c3f32cd5659aba15b6.png

该研究还展示了模型在语言方面的能力,当对整个模型进行端到端训练时,随着模型规模的增加,模型保留了更多的原始语言性能(图 6)。

27ef3d31184eeaef5825aae4cfdd38df.png

© The Ending

转载请联系本公众号获得授权

85df881646a8717c8ee0d49c2c4e60c8.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

5e45eedd2ab1325613ccbfb1453be15f.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 计算机视觉研究院亲自体验ChatGPT的感受,太疯狂了!

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12198.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人...

新智元报道 本文转载自新智元。 谷歌近日公布了一个炸弹级「通才」模型PaLM-E&#xff0c;足足有5620亿参数。它是一种多模态具身视觉语言模型&#xff0c;从引导机器人执行任务&#xff0c;到回答关于可观察世界的问题&#xff0c;全都能搞定。 大语言模型的飞速「变异」&am…

摊牌了,微软始料未及,Excel和WPS用户:我们已经在使用了

ChatGPT嵌入 Power Platform 3月6日&#xff0c;微软公司宣布&#xff0c;将 ChatGPT 的技术扩展到其 Power Platform 无代码开发平台上&#xff0c;这将允许其用户在很少甚至不需要编写代码的情况下&#xff0c;就能开发自己的应用程序。 从人工智能到ChatGPT&#xff0c;一次…

领域知识网络即服务:知识助力产业升级“无形的手”?

文|智能相对论 作者|叶远风 你用过ChatGPT了吗&#xff1f; 这个风靡全球的AI应用&#xff0c;以出圈的方式展现着AI的能量。 一个对话的界面&#xff0c;可以聊任何你想聊的话题&#xff0c;可以写出任何你想要的文字。 似乎有无限的人类知识&#xff0c;被集中到了一起&…

炸了!谷歌发布史上最大通才模型PaLM-E,5620亿参数!看图说话还能操控机器人...

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自&#xff1a;新智元 【导读】谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E&#xff0c;足足有5620亿参数。它是一种多模态具身视觉语言模…

Arduino实训-可移动机械臂(智能小车)

Arduino课程设计的实训要求通过UNO开发板设计工程项目并且与自主开发的AndroidAPP实现连接&#xff0c;最后选择了完成一个可移动机械臂。下面是最终成果图。 最终的效果&#xff1a;可通过手机开发的AndroidApp实现控制小车上的蓝牙模块进行连接并且控制小车的运动和机械臂的运…

30分钟!从0到1,用ChatGPT+Python做一个AI起名网!

坚持6年&#xff0c;第629篇原创 现在利用ChatGPT可以做很多很多事情&#xff0c;而对于我们程序员来说&#xff0c;是机会也是挑战&#xff01;因为原来很多工种&#xff0c;很多技术问题现在可以用非常廉价的技术去获取&#xff0c;成本更低了&#xff01; 打个比方&#xff…

ChatGPT 加持,决策大模型距离 AGI 更进一步

过去短短不到一年里&#xff0c;ChatGPT、GPT-4 的相继面世&#xff0c;不断刷新人们对 AI 的认知。 新技术带来变革&#xff0c;也引发了外界对 AI 是否会取代人的讨论&#xff0c;OpenAI 首席执行官 Sam Altman 也公开表示&#xff0c;对人工智能技术的强大能力有些担忧。 …

人工智能从来不是一帆风顺的

不久之前&#xff0c;人们还常说&#xff0c;计算机视觉的辨别能力尚不如一岁大的孩子。如今看来&#xff0c;这句话要改写了。 ----- 特伦斯谢诺夫斯基 目录 人工智能初现端倪 人工智能初现 人工智能“第一次危机”——“设计派”行不通 第一次危机破局——学习派初见成效…

融入ChatGPT生成能力后,员工AI助手实力狂飙

聊天机器人ChatGPT爆火“出圈”&#xff0c;让公众的视线再次聚焦在AI办公领域&#xff0c;随着企业数字化转型的深入&#xff0c;AI技术也悄悄渗透进办公室里&#xff0c;并在逐步颠覆企业当前的办公方式。 雇主评论网站Glassdoor旗下的社交平台Fishball的一份调查报告显示&a…

ChatGPT只是开胃菜,AIGC风口真的来了

去年OpenAI发布的ChatGPT在全球疯狂刷屏成为一款现象级产品&#xff0c;并成功出圈受到IT、新闻媒体、学术研究、教育等领域的广泛好评和应用。甚至有一位美国学生用ChatGPT 写论文拿下全班最高分&#xff0c;受到了全球媒体的热议。 比尔盖茨曾在今年“Reddit AMA大会”表示&…

2023年的深度学习入门指南(5) - 动手写第一个语言模型

2023年的深度学习入门指南(5) - 动手写第一个语言模型 上一篇我们介绍了openai的API&#xff0c;其实也就是给openai的API写前端。在其它各家的大模型跟gpt4还有代差的情况下&#xff0c;prompt工程是目前使用大模型的最好方式。 不过&#xff0c;很多编程出身的同学还是对于…

知识工作者如何面对ChatGPT的竞争?

什么是ChatGPT ChatGPT的全名是Chat Generative Pre-Trained Transfomer&#xff0c;是一款在2022年11月份推出的人工智能聊天机器人。特点是可以通过大型语言模型进行强化学习训练&#xff0c;对话模式非常接近人类自然对话。 ——维基百科 ChatGPT能做什么&#xff1f; Chat…

ChatGPT 下我的焦虑

鉴于一些读者还未体验过&#xff0c;可以看一下以下 GitHub 项目&#xff0c;收集了几千个封装的 ChatGPT 网站&#xff1a; https://github.com/weekend-project-space/chatgpt-sites 在 ChatGPT 刚出的时候&#xff0c;我对 AI 不屑一顾&#xff0c;大概源自于好几年前人工智…

吴军博士被ChatGPT粉丝 疯狂炮轰!他究竟做错了什么?

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID&#xff1a;jishulingdaoli) 最近&#xff0c;吴军博士的一些观点引起了热议。他说&#xff1a;“ChatGPT不算新技术革命&#xff0c;带不来什么新机会。” 此话一出&#xff0c;立刻在科技圈引起广泛讨论。K哥是吴军老师的读者&a…

吴军:ChatGPT 不算新技术革命,带不来什么新机会

吴军&#xff0c;1967年出生&#xff0c;毕业于清华大学和约翰霍普金斯大学&#xff0c;计算机专业博士&#xff0c;前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上&#xff0c;得到直播间邀请到了计算机科学家、自然语言模型专家吴军&#xff0c;就人工智…

原腾讯副总裁,Google资深研究员吴军:ChatGPT不算新技术革命,带不来什么新机会...

点击“开发者技术前线”&#xff0c;选择“星标” 让一部分开发者看到未 转载自 | 学人Scholar 吴军&#xff0c;1967年出生&#xff0c;毕业于清华大学和约翰霍普金斯大学&#xff0c;计算机专业博士&#xff0c;前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3…

快讯 | 美国掀起AI人才争夺战,六位数工资,名校被科技公司“攻陷”;新南威尔士大学开发出人体器官上进行3D打印的机械臂

一分钟速览新闻点 知乎和面壁科技合作发布中文大模型“知海图AI” 字节旗下飞书将推出智能 AI 助手「My AI」 亚马逊推出自有大语言模型“泰坦”及生成式AI服务Bedrock 新南威尔士大学开发出人体器官上进行3D打印的机械臂 特斯拉亮相2023消博会&#xff0c;首次在家庭生活场…

python爬虫学习日志 爬取静态网页数据

第一次写博客&#xff0c;想要记录学习python爬虫的过程&#xff0c;如有不当地方请指出&#xff0c;谢谢。 什么是静态网页 静态网页的定义是这样的&#xff1a; 指在服务器上保存成HTML文档的网页&#xff0c;它的内容不会随着用户的操作而发生变化&#xff0c;只能通过修改网…

AI很渴:chatGPT交流一次=喝掉一瓶水,GPT3训练=填满核反应堆

流行的大型语言模型&#xff08;LLM&#xff09;&#xff0c;如OpenAI的ChatGPT和Google的Bard&#xff0c;耗能巨大&#xff0c;需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明&#xff0…

chatgpt赋能python:简单好玩的Python程序——让你爱上编程

简单好玩的Python程序——让你爱上编程 Python语言在最近的几年迅速崛起成为最流行的编程语言之一。它的语法简单易懂&#xff0c;代码可读性强&#xff0c;是初学者学习编程的极佳选择。今天我想分享一些简单好玩的Python程序&#xff0c;让你体验Python编程的乐趣。 代码让…