炸了!谷歌发布史上最大通才模型PaLM-E,5620亿参数!看图说话还能操控机器人...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:新智元

【导读】谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。

大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。

前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

cae73fd3c17fd8de6c88845465da6c55.png

论文地址:https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

d2c02b34f7f0f00b2d10e3b6be83bc1a.jpeg

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

dbcfc797cb52ed2045187875eb99eabb.png

当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

e217d9fe455a57087cec820a99cc1f8e.gif

经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

8d3b49dddd83a3b2814b4f422018e6bb.png

除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

0c9fd847626ea7df180e1215a8b1962e.png

而在模型尺度上,研究人员则观察到了一个显著的优势。

语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

20749e8d0fd854de47c1b11f26dc3af5.png

尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上,PaLM-E取得了新的SOTA。

8104c8af38fc8271575e4965ac71a07b.png

测评结果

在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

ac1868e7f611bcb162ba341f0fe68eec.png

比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

c20f298cfa60ddc670361281d806a8ab.gif

人类:给我来点薯片。

机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

f1fba4381950471fca524f3648a87b60.png

同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

人类:给我拿一个苹果。

机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

65c873c18f66f8e708eb62ee40b44352.png

除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

fee0f8bf69fc965d529c40596e84d4b9.gif

模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

f8a98f021700cf17c1ce6a3c58ac606a.gif

类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

9e3eaa964ab0b585348d944cd6425f5a.gif

在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

d836f697640f8c06ff7ffc6262bc6e82.png

多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

f0611c89c796f309b8ce7843bd55310f.png

此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

5db6ec0b63f3b78360bf1508ac25706b.png

以及一般的QA和标注等多种任务。

0a3d808a67492898b88ade79274a55af.png

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

参考资料:

https://palm-e.github.io/

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12194.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Arduino实训-可移动机械臂(智能小车)

Arduino课程设计的实训要求通过UNO开发板设计工程项目并且与自主开发的AndroidAPP实现连接,最后选择了完成一个可移动机械臂。下面是最终成果图。 最终的效果:可通过手机开发的AndroidApp实现控制小车上的蓝牙模块进行连接并且控制小车的运动和机械臂的运…

30分钟!从0到1,用ChatGPT+Python做一个AI起名网!

坚持6年,第629篇原创 现在利用ChatGPT可以做很多很多事情,而对于我们程序员来说,是机会也是挑战!因为原来很多工种,很多技术问题现在可以用非常廉价的技术去获取,成本更低了! 打个比方&#xff…

ChatGPT 加持,决策大模型距离 AGI 更进一步

过去短短不到一年里,ChatGPT、GPT-4 的相继面世,不断刷新人们对 AI 的认知。 新技术带来变革,也引发了外界对 AI 是否会取代人的讨论,OpenAI 首席执行官 Sam Altman 也公开表示,对人工智能技术的强大能力有些担忧。 …

人工智能从来不是一帆风顺的

不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。 ----- 特伦斯谢诺夫斯基 目录 人工智能初现端倪 人工智能初现 人工智能“第一次危机”——“设计派”行不通 第一次危机破局——学习派初见成效…

融入ChatGPT生成能力后,员工AI助手实力狂飙

聊天机器人ChatGPT爆火“出圈”,让公众的视线再次聚焦在AI办公领域,随着企业数字化转型的深入,AI技术也悄悄渗透进办公室里,并在逐步颠覆企业当前的办公方式。 雇主评论网站Glassdoor旗下的社交平台Fishball的一份调查报告显示&a…

ChatGPT只是开胃菜,AIGC风口真的来了

去年OpenAI发布的ChatGPT在全球疯狂刷屏成为一款现象级产品,并成功出圈受到IT、新闻媒体、学术研究、教育等领域的广泛好评和应用。甚至有一位美国学生用ChatGPT 写论文拿下全班最高分,受到了全球媒体的热议。 比尔盖茨曾在今年“Reddit AMA大会”表示&…

2023年的深度学习入门指南(5) - 动手写第一个语言模型

2023年的深度学习入门指南(5) - 动手写第一个语言模型 上一篇我们介绍了openai的API,其实也就是给openai的API写前端。在其它各家的大模型跟gpt4还有代差的情况下,prompt工程是目前使用大模型的最好方式。 不过,很多编程出身的同学还是对于…

知识工作者如何面对ChatGPT的竞争?

什么是ChatGPT ChatGPT的全名是Chat Generative Pre-Trained Transfomer,是一款在2022年11月份推出的人工智能聊天机器人。特点是可以通过大型语言模型进行强化学习训练,对话模式非常接近人类自然对话。 ——维基百科 ChatGPT能做什么? Chat…

ChatGPT 下我的焦虑

鉴于一些读者还未体验过,可以看一下以下 GitHub 项目,收集了几千个封装的 ChatGPT 网站: https://github.com/weekend-project-space/chatgpt-sites 在 ChatGPT 刚出的时候,我对 AI 不屑一顾,大概源自于好几年前人工智…

吴军博士被ChatGPT粉丝 疯狂炮轰!他究竟做错了什么?

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 最近,吴军博士的一些观点引起了热议。他说:“ChatGPT不算新技术革命,带不来什么新机会。” 此话一出,立刻在科技圈引起广泛讨论。K哥是吴军老师的读者&a…

吴军:ChatGPT 不算新技术革命,带不来什么新机会

吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴军,就人工智…

原腾讯副总裁,Google资深研究员吴军:ChatGPT不算新技术革命,带不来什么新机会...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未 转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3…

快讯 | 美国掀起AI人才争夺战,六位数工资,名校被科技公司“攻陷”;新南威尔士大学开发出人体器官上进行3D打印的机械臂

一分钟速览新闻点 知乎和面壁科技合作发布中文大模型“知海图AI” 字节旗下飞书将推出智能 AI 助手「My AI」 亚马逊推出自有大语言模型“泰坦”及生成式AI服务Bedrock 新南威尔士大学开发出人体器官上进行3D打印的机械臂 特斯拉亮相2023消博会,首次在家庭生活场…

python爬虫学习日志 爬取静态网页数据

第一次写博客,想要记录学习python爬虫的过程,如有不当地方请指出,谢谢。 什么是静态网页 静态网页的定义是这样的: 指在服务器上保存成HTML文档的网页,它的内容不会随着用户的操作而发生变化,只能通过修改网…

AI很渴:chatGPT交流一次=喝掉一瓶水,GPT3训练=填满核反应堆

流行的大型语言模型(LLM),如OpenAI的ChatGPT和Google的Bard,耗能巨大,需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明&#xff0…

chatgpt赋能python:简单好玩的Python程序——让你爱上编程

简单好玩的Python程序——让你爱上编程 Python语言在最近的几年迅速崛起成为最流行的编程语言之一。它的语法简单易懂,代码可读性强,是初学者学习编程的极佳选择。今天我想分享一些简单好玩的Python程序,让你体验Python编程的乐趣。 代码让…

人工智能AI大战:BARD、ChatGPT、Bing和文心一言谁更具有优势?

首先在开始对比之前我首先要吐槽,不管是bard还是百度的AI现在都得等待候补,也就是排队,所以目前只能无限期等待下去,但是第一批用户已经在查通过平台上遨游了好几个月了,从商业的角度来看,几个月或许不长&a…

学习.NET MAUI Blazor(七)、实现一个真正的ChatGPT聊天应用

今天在新闻上看到一条消息,OpenAI已经开放了ChatGPT的接口,也就是GPT-3.5,对比原来的GPT-3,增加了gpt-3.5-turbo、gpt-3.5-turbo-0301两个模型。 gpt-3.5-turbo:使用最新的GPT-3.5模型,并针对聊天进行了优…

ChatGPT调研报告:发展到今天这一步,哪个职业最慌?

ChatGPT的流行,让AIGC受到了空前的关注。 AIGC,即 AI Generated Content,是指利用人工智能技术来生成内容,比如AI写作、AI绘画、AI编程、AI语音合成等。 就在3月29日,一封来自美国研究机构Future of Life Institute的公…

实际体验文心一言 VS ChatGPT

一直在关注ChatGPT与百度的文心一言,文心一言的发布会完成后,第一时间申请了体验资格,不得不说,百度的效率还是非常高的。没几个小时就给了邀请码了! 为了体验文心一言与ChatGPT的能力,我从几个方面进行了比…