李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜

来源:新智元

编辑:Aeneas 昕朋


【导读】2022年有哪些人工智能的突破?今天,李飞飞高徒Jim Fan盘点了年度十大AI亮点。

人工智能的爆炸正在扭曲我们的时间感。

你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗?

打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。

2022年的AI领域,大规模的生成模型像雨后春笋一样地冒出,改变了整个AI界的格局。

而且,这些模型正在迅速走出实验室,在现实中被应用。

比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和 AI4Science。

李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转,看看2022年都有哪些令人惊叹的AI突破。

cc2053ce05367ccbd0cab5f2698a3ade.png

一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。

65093183a458ea5bcf7ebb21c81287b1.png

但 DALLE-2被保护在OpenAI的围墙后面,并没有开源。

在OpenAI之后,LMU的StabilityAI和runwayml迈出了英勇的一步,基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」,并开源了代码和权值(weighs)。

882890cfa518040fefe23a3aca1f6ba2.png

事实证明,Stable Diffusion的开放性,让它给游戏带来了巨变。

现在,许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序,Stable Diffusion本身也被开源社区不断改进。

最近,Stable Diffusion已经达到了v2.1版本,可以在单个GPU上运行了。

2a6cbb23097620263957e7a60f730fd9.png

另外,今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API,但从论文中,我们仍然可以看到不少有趣的见解。

Imagen

https://imagen.research.google

246cec5339e6af01919dcce856c2c21a.png

Parti

https://parti.research.google。它是一个没有diffusion的Transformer模型。

d57f78913c79d70ee90db808cc4db78d.png

二、文字-文字生成

大家都知道,我说的是ChatGPT!

这是历史上唯一一个在5天内就获得了100万用户的应用程序。

ChatGPT也大大启发了我们人类的创造力。

在这个列表中,可以看到所有有用的和有想象力的关于ChatGPT想法:https://github.com/f/awesome-chat

623c4a03743fe8dc9f13262d399f98ff.png

ChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。

这也就意味着,提示工程或许很快就会消失了。

a65b3f363664cb29be4f9afc4c5296f2.png

ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。

这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!

3eb8d6ca9568a63167949b4c62fe86f0.png

三、文本- 机器人模型

如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?

与NLP不同,机器人模型需要与物理世界互动。

在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

10月,我和同事创建了一个 「机器人GPT 」——名为VIMA的tranformer。

它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。

我们的模型被称为VIMA(「VisuoMotor Attention」),已经完全开源了。

现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。

9f58977a96864342f7f1a8f68efa8cae.gif

RT-1

沿着与VIMA类似的路径,来自GoogleAI的研究人员发布了RT-1,这是一种在700项任务和130K的人类演示上训练的机器人transformer。

这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!

4ec54c07038f795e8995959ccf00fe2c.gif

四、文本 - 视频

本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。

如果我们可以做text2image,那为什么不在里面加上时间轴,来获得额外的乐趣呢?

目前,文本 - 视频领域有3个重大的工作,但没有一个是开源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。

您可以在此处注册试用访问权限:https://makeavevideo.studio

b0ccf35d44047ebdcd041fb075b399e3.png

论文链接:https://arxiv.org/abs/2209.14792

de3a9f826697fe038f47c889af0f75bb.png

Imagen Video

Google AI的Imagen Video:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。

演示:http://imagen.research.google/video/

c93a1326b9f9b3ee8b5e06d44ba8f8aa.png

论文链接:https://arxiv.org/abs/2210.02303

ac80ffc6171e3cd7d0d29a8257741751.gif

Phenaki

来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。

演示:https://phenaki.video

8646ec7f89128dee6a27bf1f4d9839da.png

论文链接:https://arxiv.org/abs/2210.02399

8bdeae9c49abcf712b0078161aa4c3c8.gif

五、文本-3D建模

从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。

令人惊喜的是,2022年出现了许多卓有前途的3D生成模型。在此,Fan列举了3个模型。

DreamFusion

首先登场的,是Google AI研究团队与UC Berkeley联合开发的DreamFusion。

eb2a5659c2c6f509e8d05f6a84a08c25.png

论文链接:https://arxiv.org/pdf/2209.14988.pdf

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。

34327126fbf7043be759c29edd2a1aaf.gif

该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。

Magic3D

第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。

f6cb623b7b11a5798d72d4f0b1328e23.png

GET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf

18192676167ce55eccd866d07bb67d76.png

Magic3D论文链接:https://arxiv.org/pdf/2211.10440.pdf

GET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。

36d3846f4632fa7bbed32e833f080577.gif

该模型允许用户立即将其形体导入3D渲染器和游戏引擎,以便进行后续编辑。

Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。

ef3fc8102b6df210d96139174961ed23.gif

根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。

5df3121b78617b8276951e61d977532c.png

论文链接:https://arxiv.org/pdf/2212.08751.pdf

相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。

22cf5da737f677de187d865b4341938c.gif

根据测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。

六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。

其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。

那么,AI能否和人类一样尽情挥洒想象力呢?

76f53e3ec3ccd5dc661c0c66c0c9ea89.jpeg

Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」,它可以在自然语言提示下解决许多任务。

da8c3edcd2d6484d84ef006fa59ebff3.png

论文链接:https://arxiv.org/pdf/2206.08853.pdf

Fan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。

与此同时,Jeff Clune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。

4bd9a3fda6cf3c5833b37296b6f7df70.png

论文链接:https://arxiv.org/pdf/2206.11795.pdf

VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。

e17c10d38a35034d78f886e3acffe1fc.gif

七、AI外交官

Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

92f6d02b6161a4471cc226ff5e618bcb.png

论文链接:https://www.science.org/doi/10.1126/science.ade9097

《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。

然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。

aacc892b7184140d664ed223bc393916.gif

目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?

八、音频-文本模型

Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。

ac15af88d997c9582c57468e9a542801.png

论文链接:https://arxiv.org/pdf/2212.04356.pdf

Whisper经过了来自网络的680,000小时音频数据的训练。Open AI强调,Whisper的语音识别能力已达到人类水准。

fa887e90c3d375c8f3d513fd11a0f038.png

Open AI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?

九、核聚变

DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。

ab81aa1447c7ca5917cd099043fe0a65.png

论文链接:https://www.nature.com/articles/s41586-021-04301-9

同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!

718eb1356f44417426947fc8f4197a15.jpeg

这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!

十、应用于生物学的Transformer

2021年,AlphaFold开启了语言模型预测蛋白质3D结构的序幕。

ab83bb0d30806d10cfab25b9362b354a.jpeg

7月,DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构!

此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

972db7c6e5e8d3e2e040ed1e56586c6e.png

视频讲解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

以上便是Jim Fan对2022年十大AI亮点的盘点。当然,Fan也表示,还有无数令人兴奋的作品为人工智能的进步做出了贡献。

每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。

不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。

无论是通过仔细的培训设计、适当的监督还是全新的保障方法,人工智能的安全与伦理成为越来越的AI专家所讨论的议程。

毫无疑问,2022年是充满奇迹的一年,也是令人惊叹的一年。未来一年又会有什么震惊世界的突破?我们与你一起关注。

参考资料:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

END

欢迎加入Imagination GPU与人工智能交流2群

2868a83879d1e6b830f46d43fdb7006c.jpeg

入群请加小编微信:eetrend89

(添加请备注公司名和职称)

推荐阅读

对话Imagination中国区董事长:以GPU为支点加强软硬件协同,助力数字化转型

ICCAD 2022圆满落幕,Imagination异构计算引领“芯”未来

487bfaacdfa13ad634ccb51348315218.jpeg

Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45109.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【教学类-38】20230724京剧脸谱涂色(Python 彩图彩照转素描线描稿)

一、作品预览 京剧脸谱(涂色)学具展示(64份) 二、背景需求: 1、大班主题《我是中国人》里面有一个“京剧脸谱”的子主题。从网上下载的彩色脸谱(红黄绿蓝紫黑白),作为环境装饰。引…

智能ai生成绘画软件有哪些?亲测好用的软件分享

小伙伴们有听说过ai绘画吗?这是目前比较火的一种绘画方式,我们可以通过给AI输入一段关于画面描述的文字内容,ai就可以根据这些内容,生成一幅相关的画作。对于不会画画,但是有创意的小伙伴,你们会不会也想试…

Drawio免费绘图软件下载

drawio是一款强大、免费的绘图工具,使用起来非常方便,非常好用,可以满足大部分画图功能,例如UML、页面设计(Android&iOS)等visio能画的图它都可以画。支持网页版使用(网页版可以自己部署一套…

ai绘画生成软件哪个好?这3款ai绘画生成软件还不错

你知道ai绘画生成软件哪个好吗?随着人工智能技术的不断进步,AI绘画已经成为了一种极具前瞻性的技术。 在过去的几年中,出现了许多强大的AI绘画工具,如一键AI绘画、梦幻AI画家和Midjourney软件等。这些工具利用机器学习和计算机视觉…

文字生成绘画软件有哪些?推荐你几款好用的ai绘画工具

在社交媒体应用中,文字生成绘画的软件可以使我们更好地记录生活中的美好瞬间,而且它可以把文字内容制作成好看的图片分享给亲朋好友,增强沟通和互动效果。那么,小伙伴们知道文字生成绘画软件有哪些吗?这篇文章就给你推…

推荐几个ai生成绘画软件给你

绘画是一门需要艺术家经过长时间的学习和实践才能精通的技能,但现在有了人工智能绘画软件,人们可以更加轻松地创作出美丽的作品。今天,我们将和大家介绍一下ai绘画软件有哪些,希望这篇文章能够帮助你们实现自己的创意。 推荐电脑端…

ai绘画生成软件哪个好?分享几个ai绘画软件

ai绘画是人工智能技术在绘画领域的应用。随着科学技术的不断发展,越来越多的绘画软件开始采用ai技术,为画家提供更加自由、更加灵活的绘画体验。ai绘画的基本原理是利用人工智能技术对绘画过程进行辅助。在传统的绘画中,艺术家需要通过手工完…

这几个AI生成绘画软件推荐给大家

以前只有专业的画家才能绘制出优秀的画作,但现在AI技术的进步为普通人带来了极大的便利,只需要使用特定的软件,就能轻松绘制出高质量的画作。那大家知道可以AI人工智能绘画的软件有哪些吗?如果不知道也没关系,我来分享几款给你。…

AI绘画怎么生成?这些软件帮助你实现

不知道前段时间,大家的朋友圈会不会出现很多的ai绘画作品呢?这是近期一个深受年轻人喜欢的绘画手法,它主要是通过ai技术,将我们描述的文字以及图片绘制成一幅画。那大家知道ai绘画怎么弄的吗?不知道的没关系&#xff0…

android手机绘图软件,手机绘画软件(MediBang Paint Tablet)

MediBang Paint Tablet 是一款功能丰富的手机绘画软件,主要是用来绘制插画和漫画,内置有丰富的笔刷、素材、漫画用字体等功能,方便动漫作者进行创作,软件还为作者提供了云存储空间,作品可以上传保存,也可以…

AI可以自动生成绘画吗?分享几款AI绘画软件

AI绘画热潮来临之前,我在网上看到不少人发了AI绘画的图片,除了画人物,还有画漫画和风景的图片,画面真实和色彩丰富程度让我不敢相信是AI画的,于是就去网上搜索AI可以自动生成绘画吗?在搜索的过程中&#xf…

最新python爬虫爬取国外亚马逊商品分类里的所有商品标题,图片,介绍和价格

亚马逊某个分类商品的页面 一开始肯定就是只试试这一个页面,看看能不能请求到刚开始不知道反爬做的好不好,就简单的加个User-Agent,果然不行,爬到的网页是让输入验证码的网页。然后就是用session, 再加上cookie,咦&a…

C#绘图及图像

C#绘图及图像 绘图的基本方法 绘图的应用

一键即可实现图片翻译成中文,多国语言任意选

大家有没有遇到过以下这些困扰呢:职场上对接的甲方是外国人,对方发来一堆外文图片文件、或是想在网上了解一些国外的实时资讯,但通常内容中会夹杂着一些英文图片等等。这些情况对于外语基础薄弱的人来说,简直是一个头两个大&#…

在线古诗自动生成器的设计与实现

在线古诗自动生成器的设计与实现 前言一、算法模型介绍LSTM简介模型框架实验环境实验与分析实验数据集数据集预处理训练过程模型训练结果模型的评估 二.在线古诗生成器的设计与实现系统结构远程服务器的项目部署系统测试 三.成品展示 前言 古诗,作为中华文化的凝结&…

[R语言]手把手教你如何绘图(万字)

目录 概况 常用高级图形 条形图 csv文件导入 csv文件导出 R语言sep函数 seq函数 with函数 直方图和密度估计图 盒型图 boxplot() 正态QQ图 散点图 pairs()散点矩阵图 曲线图 curve() 三维图 动态三维图 低级图形函数 abline() lines() legand()增加图例 …

古诗文本自动生成唐诗文本生成(算例代码)

首先准备好一个本地文件,在此我命名为唐诗三百首.txt如下图(https://img-blog.csdnimg. 图片: ##代码如下 import numpy as np, os from collections import Counter from warnings import filterwarnings filterwarnings(ignore) # 不打印警告from keras.utils…

UE4_UE5结合offline voice recognition插件做语音识别功能

市面上主流的语音识别大多是用科大讯飞的SDK,但是那个也不是完全免费使用的,于是我选择使用offline voice recognition的语音识别,购买插件终生使用。 offline voice recognition插件在UE官方商城卖200多元。 我将它需要的资源都打包成一个r…

AI协助理清思路?两位大学生短时间内开发的ChatMind思维导图为知识工作者带来无限便利

为什么结合ChatGPT生成的思维导图比其他ChatGPT有优势 结合ChatGPT生成的思维导图的优势在于,它可以将ChatGPT生成的信息可视化并以图形化的方式呈现出来。这样可以让用户更容易理解,记忆和组织ChatGPT生成的信息。思维导图还可以帮助人们分析ChatGPT生…

写了一首 Java 表白诗,女朋友不愁了!

祝大家 情人节快乐 一首原创 Java 诗 表白大家了 遇见你的第一天 忍不住内心的躁动 我在心里开辟了一块你的内存区域 和你的每一次美好邂逅 我都封装成记忆 深深将它压入堆栈 舍不得让它逃逸 追求你的队列很长 并发很高 我也加入了竞争 拼命挣抢着你的爱情锁 却被一直阻塞着 想…