李飞飞高徒盘点年度十大AI亮点:扩散模型成最大赢家!多模态正在爆火!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>CV微信技术交流群

转载自:新智元 | 编辑:Aeneas 昕朋

【导读】2022年有哪些人工智能的突破?今天,李飞飞高徒Jim Fan盘点了年度十大AI亮点。

人工智能的爆炸正在扭曲我们的时间感。

你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗?

打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。

2022年的AI领域,大规模的生成模型像雨后春笋一样地冒出,改变了整个AI界的格局。

而且,这些模型正在迅速走出实验室,在现实中被应用。

比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和 AI4Science。

李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转,看看2022年都有哪些令人惊叹的AI突破。

9462490d8b7e3c684e8cd9b6c41b6fc3.png

一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。

703f72631903fa836ac69108c92e504e.png

但 DALLE-2被保护在OpenAI的围墙后面,并没有开源。

在OpenAI之后,LMU的StabilityAI和runwayml迈出了英勇的一步,基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」,并开源了代码和权值(weighs)。

80962d054d1f103b350bb4eaf246dc18.png

事实证明,Stable Diffusion的开放性,让它给游戏带来了巨变。

现在,许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序,Stable Diffusion本身也被开源社区不断改进。

最近,Stable Diffusion已经达到了v2.1版本,可以在单个GPU上运行了。

d1643f8c946c255989e3189cffc74965.png

另外,今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API,但从论文中,我们仍然可以看到不少有趣的见解。

Imagen

https://imagen.research.google

c83ed018d8fa6bb2bce7381bf57767a7.png

Parti

https://parti.research.google。它是一个没有diffusion的Transformer模型。

a9827a19ada5ae0aa712517f9ff6df71.png

二、文字-文字生成

大家都知道,我说的是ChatGPT!

这是历史上唯一一个在5天内就获得了100万用户的应用程序。

ChatGPT也大大启发了我们人类的创造力。

在这个列表中,可以看到所有有用的和有想象力的关于ChatGPT想法:https://github.com/f/awesome-chat

17eeaaac43f50bc7196833aba128af23.png

ChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。

这也就意味着,提示工程或许很快就会消失了。

de3dde5cfcd1c58c9e2c94659a3dd48b.png

ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。

这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!

3fe8c5dfdf4e27c7be8b8b293c15976d.png

三、文本- 机器人模型

如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?

与NLP不同,机器人模型需要与物理世界互动。

在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

10月,我和同事创建了一个 「机器人GPT 」——名为VIMA的tranformer。

它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。

我们的模型被称为VIMA(「VisuoMotor Attention」),已经完全开源了。

现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。

1106236dd9e38fc3aea92d14c69e97a4.gif

RT-1

沿着与VIMA类似的路径,来自GoogleAI的研究人员发布了RT-1,这是一种在700项任务和130K的人类演示上训练的机器人transformer。

这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!

1de9aca32b5821f1844cc85695b7f11f.gif

四、文本 - 视频

本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。

如果我们可以做text2image,那为什么不在里面加上时间轴,来获得额外的乐趣呢?

目前,文本 - 视频领域有3个重大的工作,但没有一个是开源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。

您可以在此处注册试用访问权限:https://makeavevideo.studio

d31cd5d0ce14163aa8720fe20a5d5f87.png

论文链接:https://arxiv.org/abs/2209.14792

916f3f950a9e1976b52b3842f087351e.png

Imagen Video

Google AI的Imagen Video:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。

演示:http://imagen.research.google/video/

2468c6c7052abbeda025c4eb1252f8cc.png

论文链接:https://arxiv.org/abs/2210.02303

221948fae211ee31978a21d0b035b328.gif

Phenaki

来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。

演示:https://phenaki.video

b9c6fac8fd1d4c9dcd07dade726e5f16.png

论文链接:https://arxiv.org/abs/2210.02399

161329a3bacec70f835c00a5f7758e3a.gif

五、文本-3D建模

从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。

令人惊喜的是,2022年出现了许多卓有前途的3D生成模型。在此,Fan列举了3个模型。

DreamFusion

首先登场的,是Google AI研究团队与UC Berkeley联合开发的DreamFusion。

127ad803213a991aca1c5261d711c127.png

论文链接:https://arxiv.org/pdf/2209.14988.pdf

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。

c8707194c9fa3f5e857db4f2b683fec3.gif

该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。

Magic3D

第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。

13fc7527308664e6cdac989f1cabe52e.png

GET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf

e9f75b160c796f2634db113605e067aa.png

Magic3D论文链接:https://arxiv.org/pdf/2211.10440.pdf

GET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。

4c4580bf76e8c7ccee8919f05a949be4.gif

该模型允许用户立即将其形体导入3D渲染器和游戏引擎,以便进行后续编辑。

Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。

31544f66b6ae3f601027441e74ed17e0.gif

根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。

9581340b8994197732d42408eaf42ab0.png

论文链接:https://arxiv.org/pdf/2212.08751.pdf

相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。

751309805da2ef4143a8dc480618a681.gif

根据测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。

六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。

其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。

那么,AI能否和人类一样尽情挥洒想象力呢?

6128c49196d9b65101e15cbbd34ab111.jpeg

Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」,它可以在自然语言提示下解决许多任务。

ce55ba590b1701171afd92e22c65c62e.png

论文链接:https://arxiv.org/pdf/2206.08853.pdf

Fan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。

与此同时,Jeff Clune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。

cf420d9a5bc7ca3000fa5a032c7507ec.png

论文链接:https://arxiv.org/pdf/2206.11795.pdf

VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。

56712ebfbc5ed3eb75cefaa32ddb75fa.gif

七、AI外交官

Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

68214bba791310bd85ece836f2474bc2.png

论文链接:https://www.science.org/doi/10.1126/science.ade9097

《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。

然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。

d96a63f70cb919add4c209b52f2f3fbe.gif

目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?

八、音频-文本模型

Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。

dc88bd71f07b2c3d73cce29091461ac7.png

论文链接:https://arxiv.org/pdf/2212.04356.pdf

Whisper经过了来自网络的680,000小时音频数据的训练。Open AI强调,Whisper的语音识别能力已达到人类水准。

f12c502061aa3a842b20c72260b248a6.png

Open AI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?

九、核聚变

DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。

a66cc1b73c6fd2fd1975373e767f1137.png

论文链接:https://www.nature.com/articles/s41586-021-04301-9

同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!

7d20eb589980441b1cd8a31a3986ed1b.jpeg

这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!

十、应用于生物学的Transformer

2021年,AlphaFold开启了语言模型预测蛋白质3D结构的序幕。

fb93e02cd1ec28eff3c2472b9f63a806.jpeg

7月,DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构!

此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

369811ff4b0bb785f4f156837932a5cf.png

视频讲解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

以上便是Jim Fan对2022年十大AI亮点的盘点。当然,Fan也表示,还有无数令人兴奋的作品为人工智能的进步做出了贡献。

每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。

不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。

无论是通过仔细的培训设计、适当的监督还是全新的保障方法,人工智能的安全与伦理成为越来越的AI专家所讨论的议程。

毫无疑问,2022年是充满奇迹的一年,也是令人惊叹的一年。未来一年又会有什么震惊世界的突破?我们与你一起关注。

参考资料:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

 

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48408.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大模型争议的背后,是技术以人为本的初衷

去年底,一款现象级应用ChatGPT开始风靡全球,也让其背后的AI大模型迅速出圈,成为众说纷纭的热门话题。 年后,OpenAI GPT-4以及国内诸多AI大模型的陆续发布,让市场热度有增无减。不过,一份包括马斯克在内100…

健身房信息管理系统/健身房管理系统

21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到…

健身中心管理系统/健身房管理系统

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&…

软件测试2年半的我,谈谈自己的理解...

软件测试两年半的我,谈谈自己的理解 从2020年7月毕业,就成为一名测试仔。日子混了一鲲年,感觉需要好好梳理一下自己的职业道路了,回顾与总结下吧。 一、测试的定位 做事嘛,搞清楚自己的定位很重要。 要搞清楚自己的定位…

SpringBoot配置文件拆分 - 第466篇

历史文章(文章累计460) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 ​…

chatgpt赋能python:Python倒序输入:如何在Python中对字符串进行反转?

Python倒序输入:如何在Python中对字符串进行反转? 在Python编程语言中,反转字符串是一项非常基础也十分重要的操作。这个操作经常用在数据处理、计算机科学、人工智能等领域。本文将会向您介绍如何在Python中对字符串进行反转。作为一名有10…

粤港澳大湾区7大机场新闻数据的评分系统

粤港澳大湾区7大机场新闻数据的评分系统 # 一、获取网页源代码 # 1.引入所需库 import requests import re import time import csv # 2.请求头 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.1…

华人运通与BlackBerry达成合作, 打造未来数字生命GT——高合HiPhi Z

BlackBerry近日宣布,中国领先的未来智能交通产业的创新型出行科技公司——华人运通,选择了BlackBerry QNX为华人运通的第二款旗舰车型高合HiPhi Z保驾护航,打造其自动驾驶域控制器与数字座舱域控制器。 基于BlackBerry QNX Neutrino 实时操作…

聚观早报|Uber分拆旗下网约车服务; 字节跳动首度超越腾讯和阿里

今日要闻:Uber分拆旗下网约车服务Careem;字节跳动首度超越腾讯和阿里;搜狗追上GPT-4需要3年左右;苹果首款头戴装置将延至6月量产;全面注册制新规今起正式落地 Uber分拆旗下网约车服务Careem Uber 旗下网约车服务 Care…

车载T-BOX市场分析

图片来源于网络 目录 摘要1. 前装市场2. 后装市场 摘要 T-Box,即Telematics-Box,又称TCU(车联网控制单元),指安装在汽车上用于控制跟踪汽车的嵌入式系统,包括GPS单元、移动通讯外部接口电子处理单元、微控…

TiDB HTAP 遇上新能源车企:直营模式下实时数据分析的应用实践

无论在股市还是车市上,新能源汽车早已站在了舞台中央。在一台台爆款新车的背后,是造车新势力们产品力和技术力的强强联手,更是数字营销和直营的绝妙组合。早在 2021 年,造车新势力们就已基本完成了销量的“原始积累”。根据各品牌…

袋鼠云亮相澳门首届BEYOND国际科技创新博览会,加速迈向国际化

12月2日-4日,首届BEYOND国际科技创新博览会于澳门威尼斯人金光会展中心举办。 BEYOND国际科技创新博览会以科技创新和科技对社会各产业的影响力为焦点,聚焦前沿科技,展现科技在现今和未来社会各行业的影响力。BEYOND将成为澳门连接全球科技创新产业的重要平台,旨在成为全球顶级…

拿下车载激光雷达份额「第一」,图达通寻求「变阵」

在2022年的量产元年之后,激光雷达正尝试进入真正大规模量产周期。在此之前,有一些关键问题需要解决,其中包括:其一,帮助主机厂将激光雷达真正用起来,发挥价值;其二,丰富产品品类&…

ICV:车载毫米波雷达中国市场有望在2025年实现30亿美元的市场规模

近日,专注于前沿科技领域的国际咨询机构ICV发布了全球车载毫米波雷达的市场研究报告,汽车毫米波(mmWave)雷达基于频率为77 GHz的电磁波,具有高精度和准确性,可用于目标检测。这种技术有着广泛的应用&#x…

ChatGPT - 使用chatgpt + xmind 快速生成思维导图

文章目录 Step 1Step 2Step 3 Step 1 Prompt 体系化的列举出Flink的知识点, 输出markdown语言格式Step 2 Prompt 将上述回答转换为markdown的Code# Flink 知识点概览Apache Flink 是一个流处理框架,用于在分布式环境中处理无限的数据流。以下是 Flin…

“发现生活中的美好,ChatGPT 带你用脑图记录,发现更多美好!“

脑图的好处和特点。 脑图是一种视觉化的思维工具,具有以下的好处和特点: 整合信息:脑图能够把大量信息集中在一个图形中,并通过层级结构和分支来展示信息之间的关系,便于整合和理解复杂的信息。提高效率:…

“反向传播算法”过程及公式推导(超直观好懂的Backpropagation)

文章目录 前言(扯犊子)定义算法讲解(耐心看)CASE 1(图示讲解,看不太懂没关系,看第二组图)CASE 2(具体计算举例,嫌麻烦的可直接看这个,强烈推荐&am…

【工具】1729- PMAI:优秀的产品经理 AI 帮手

关注 “AI 工具派” 探索最新 AI 工具,发现 AI 带来的无限可能性! 今天 Chris 给大家推荐的工具是 PMAI,一款产品经理的 AI 助手,可以一键生成 PRD、解决方案、流程图、sql 等功能,快来一起看看吧。 工具地址&#xff…

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)...

“ ChatGPT 的 Transformer 神经网络架构,以及海量的数据训练让它能够像人类一样进行写作。” 经过前面两期漫长的介绍文章: 为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一…

2023年中国私域运营洞察白皮书

导读: 随着私域阵地边界的拓展,内容成为捕获消费者注意力的关键,下一阶段的私域运营将向以内容为中心进行升级。《2023年中国私域运营洞察白皮书》从私域运营的发展背景出发,提出了以内容为中心的私域运营进阶模式,并公…