谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏...

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

为应对新一轮技术竞赛,谷歌还在不断出后手。

这两天,一个名叫PaLM-E的大模型在AI学术圈疯狂刷屏。

ef55f45feb1bd8addd94a61a77634f70.gif

它能只需一句话,就让机器人去厨房抽屉里拿薯片。

7156a3c69f4f60f748a1848e701039c4.gif

即便是中途干扰它,它也会坚持执行任务。

8280f67dc8002337d831b48f795d6ad5.gif

PaLM-E拥有5620亿参数,是GPT-3的三倍多,号称史上最大规模视觉语言模型。而它背后的打造团队,正是谷歌和柏林工业大学。

作为一个能处理多模态信息的大模型,它还兼具非常强的逻辑思维。

比如能从一堆图片里,判断出哪个是能滚动的。

fb0af257fe76686feb86fa091f056997.png

还会看图做算数:

c971054c0c6cd56c636860dade0800da.png

有人感慨:

这项工作比ChatGPT离AGI更近一步啊!

13ecd56daa56bc5d007d55f6250afed6.png

而另一边,微软其实也在尝试ChatGPT指挥机器人干活。

这么看,谷歌是凭借PaLM-E一步到位了?

逻辑性更强的大模型

PaLM-E是将PaLM和ViT强强联合。

5620亿的参数量,其实就是如上两个模型参数量相加而来(5400亿+220亿)。

303c4afb8c0a4ebc1d237692a1ee6078.png

PaLM是谷歌在22年发布的语言大模型,它是Pathways架构训练出来的,能通过“思考过程提示”获得更准确的逻辑推理能力,减少AI生成内容中的错误和胡言乱语。

Pathways是一种稀疏模型架构,是谷歌AI这两年重点发展方向之一,目标就是训练出可执行成千上百种任务的通用模型。

ViT是计算机视觉领域的经典工作了,即Vision Transformer。

两者结合后,PaLM-E可以处理多模态信息。包括:

  • 语言

  • 图像

  • 场景表征

  • 物体表征

通过加一个编码器,模型可以将图像或传感器数据编码为一系列与语言标记大小相同的向量,将此作为输入用于下一个token预测,进行端到端训练。

e8333aab8751e338c514e59fa0120b0d.jpeg

具体能力方面,PaLM-E表现出了比较强的逻辑性。

比如给它一张图片,然后让它根据所看到的做出蛋糕。

模型能先判断出图像中都有什么,然后分成9步讲了该如何制作蛋糕,从最初的磕鸡蛋到最后洗碗都包括在内。

7cf96718ebc668cea847e08d8d7d0a75.png

有人还调侃说,这机器人怎么在把蛋糕给我前先自己吃了?

08871e6523ecdda526ed821105886fc3.png

还有根据图片做判断:我能在这条路上骑自行车吗?

模型进行一系列逻辑推断:

1、不能进入
2、除了自行车
3、除了自行车以外都不能进入
4、答案是可以

65497c64a9a002d7fe1a9931a6dfa872.png

这和人类思考的过程确实很像了。

不仅如此,模型的最强大之处在于,它无需经过预处理,即提前理解环境。

它做出判断和回答,完全是基于它自己的“经验”。

研究人员表示,这项成果表现出了很强的正向迁移(positive transfer)能力。

在多个领域任务的训练中,PaLM-E的表现都优于单项任务机器人模型。

d2e793cd31037539a6d2f67713847e2a.jpeg

而且他们还发现,语言模型的规模越大,它最终能保持的语言理解能力越强。

比如使用5400亿参数规模的PaLM时,PaLM-E在语言任务上的实际能力仅下降了3.9%。

de5f9d83280bb968c8fdd40bc67411ed.png

从实验结果来看,PaLM-E在OK-VQA基准上达到新SOTA。

a8ddcc56cb13ff1caed78a445e744db5.png

在模拟环境下的任务完成度也都不错。

618333bee12c7b8db8a547b8fb648371.png

再次验证大力出奇迹

目前这项研究已引发非常广泛的讨论。

主要在于以下几个方面:

1、一定程度上验证了“大力出奇迹”
2、比ChatGPT更接近AGI?

一方面,作为目前已知的规模最大的视觉语言模型,PaLM-E的表现已经足够惊艳了。

去年,DeepMind也发布过一个通才大模型Gota,在604个不同的任务上接受了训练。

但当时有很多人认为它并不算真正意义上的通用,因为研究无法证明模型在不同任务之间发生了正向迁移。

论文作者表示,这或许是因为模型规模还不够大。

如今,PaLM-E似乎完成了这一论证。

ca3b10ee6b1b54407455a8446aecebaf.png

不过也有声音担心,这是不是把卷参数从NLP引到了CV圈?

ccd149a9c505fdc4fdf43c8961a715f6.jpeg

另一方面,是从大趋势上来看。

有人表示,这项工作看上去要比ChatGPT更接近AGI啊。

的确,用ChatGPT还只是提供文字建议,很多具体动手的事还要自己来。

但PaLM-E属于把大模型能力拉入到具象化层面,AI和物理世界之间的结界要被打破了。

5b64eee2d50dc3aeaab39de5d37abb68.png

而且这个趋势显然也是大家都在琢磨的,微软前不久也发布了一项非常相似的工作——让ChatGPT指挥机器人。

除此之外,还有很多人表示,这再一次验证了多模态是未来。

不过,这项成果现在只有论文和demo发布,真正能力有待验证。

011ca81e1463138386483222859401e0.png

此外还有人发现,模型驱动的机器人,背后的开发团队在几周前被谷歌一锅端了。。。

95c7e314e840f0b29bf7f23ff9cf638d.png

所以关于PaLM-E的更多后续,咱们还得再蹲蹲看。

论文地址:
https://arxiv.org/abs/2303.03378

参考链接:
[1]https://palm-e.github.io/
[2]https://news.ycombinator.com/item?id=35050475
[3]https://metro.co.uk/2023/02/23/google-lays-off-team-of-robots-that-cleaned-tables-and-sorted-rubbish-18336703/

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

被ChatGPT带飞的AIGC如何在中国落地?量子位邀你共同参与中国AIGC产业峰会

15beac1bad69879f8dfb6b72305b8650.gif

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18953.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何查询Facebook广告账户的账单和发票?

我们在BM上投放广告时,每个月都需要支付对应的账单,在支付之前,我们可以有两种方式可以查看本月各个账户的消费情况。 第一种,我们确切知道要查询的账户,这样的话我们可以BM商务管理平台,找到广告账户&…

微信对账单功能开发(V2)

下载交易账单接口开发 应用场景: 商户可以通过该接口下载历史交易清单。比如掉单、系统错误等导致商户侧和微信侧数据不一致,通过对账单核对后可校正支付状态。 注意: 1、微信侧未成功下单的交易不会出现在对账单中。支付成功后撤销的交易…

财务报表分析

财务报表分析的概念 1.以了解企业盈利能力为主要目标 2.企业投资风险分析 3.未来盈利预测 4.估计企业的内在价值 财务报告的构成 财务报告是指公司对外提供的反映公司某一特定日期财务状况和某以会计期间经营成果、现金流量的文件。 财务报告包括【财务报表、财务情况说…

python分析财务报表

前言 其实这也是老师要求我们分析的一个项目,所以记录下分析的过程。 财务大数据作为大数据方向的一个热门方向,如果能学好,对于我们的今后工作是会有很大帮助的,同时目前市场人才需求也是很大的。 实验目的 利用python构建…

用chatGPT写一个SAP的资产负债表

最近爆火的ChatGpt相信大家都不陌生,听说它还能写代码,而且能力不凡。 chatGPT能用来干什么? 它可以自动生成文本对话,因此可以用来实现聊天机器人等应用。 例如,您可以利用ChatGPT构建一个聊天机器人,用…

ChatGPT 提示的艺术 — 编写清晰有效提示指南

术语解释 所谓 ChatGPT 提示(Prompt),就是你与 ChatGPT 对话的时候在输入框输入的文本内容,例如: 红框内的文本就是这段对话中提供给 ChatGPT 的提示。 如果你还没有 ChatGPT 账号,请参考这篇教程获取&…

3个ChatGPT插件自动写书爆火,更多躺着赚钱玩法可以问AI自己!

梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT插件数量大爆发!总数已达390个,与刚开放时的74个相比,增长超过400%。 而且有网友指出,其中112个都是在6月11日这一天冒出来的…… 虽然早期插件质量参差不齐体验一般,但…

Java进阶 - 易错知识点整理(待更新)

Java进阶 - 易错知识点整理(待更新) Note:这里根据 CSDN Java进阶技能树 整理的Java易错题(不带问),并摘录了博主"哪吒" 的Java面试题整理(带问)、牛客网的Java面试题库&…

java八股文面试总结

** 面试题总结(简略回答,方便记忆以及面试回答) ** 计算机网络 什么时候选择 TCP,什么时候选 UDP? 答: UDP 一般用于即时通信,比如: 语音、 视频 、直播等等。这些场景对传输数据的准确性要求不是特别高…

【AIGC】BaiChuan7B开源大模型介绍、部署以及创建接口服务

模型介绍 baichuan-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU&#x…

为什么AI检测器认为美国宪法是由人工智能编写的

人工智能写作检测器可信吗? 我们深入探讨它们背后的理论。 一、背景 如果你将美国最重要的法律文件——美国宪法——输入一个旨在检测类似ChatGPT的AI模型所写文本的工具中,那么它会告诉你该文件几乎肯定是由AI撰写的。但除非詹姆斯麦迪逊是时间旅行者&…

【ARM-Trustzone-TEE-ATF-SOC群】周刊 第一期:开篇

快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程 【购买须知】: 【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈 背景 很多小伙伴也都知…

AI 时代的学习方式: 和文档对话

作者:明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐…

chatgpt概述性分享:大家是如何用chatgpt的?

简述 训练方式 在一个比较强的BaseModel(GPT3.5)上继续用数据微调(SFT),但这次的微调还引入了一种学习方式叫RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。 所以可以简单总结为…

利用AI润色简历和模拟面试 - ChatCV

ChatCV是什么 chatCV是一个智能简历优化和面试模拟平台,它利用chatpt来分析用户的简历和职位要求,并让chatgpt站在专业的招聘经理的角度来给出建议和反馈。用户上传自己的简历后,就可以开始和AI对话了。AI会根据简历内容,提出修改…

〖程序员的自我修养 - 精炼面试篇③〗- 如何通过「自我介绍」更好的推销自己

简介:应 850 小伙伴要求, 无论你是迷茫的在校生还是已经就业的老司机,该专栏都值得你订阅,它会让你成就更好的自己!说明:该文属于 程序员的自我修养 专栏,购买任意白宝书体系化专栏可加入易编程…

对接腾讯广告平台系统开发(半自动化广告投放系统)

这是我最近刚弄完上线的一套比较有意思的比较大型的系统,因此特意记录一下。 先说这套玩意获得的效果:竞品的投放团队运营团队就算有一百个人,天天996,007加班不睡觉,投放效率也没有我们四五个人的高,这个…

ChatGPT 会取代人的哪些工作?哪些人群的职业规划需要转变?

ChatGPT 会取代人的哪些工作?哪些人群的职业规划需要转变? 作为一个人工智能,ChatGPT 可以用于许多自动化和智能化的工作领域。以下是 ChatGPT 可能会取代人的一些工作: 客服和客户支持:ChatGPT 可以接管一些基本的客户…

怎样写毕业论文的开题报告和任务书?

在开始一份毕业论文之前,任务书和开题报告是每一位同学都绕不开的,总有小伙伴为此头疼不已。为了让大家清楚地了解到什么是毕业论文的开题报告和任务书,以及如何写好开题报告和任务书,我总结了一篇大约2000字的文章,将…

开题报告的选题依据怎么写?

宝子们!是不是导师在催你的开题报告啦~导师给你选了一个选题,是不是你还没琢磨好这个选题想表达点啥?到底有什么依据选这个选题?选题依据由什么组成?且先不说如何把选题写的足够出彩,但能不能找到一个合适的…