2022生成模型进展有多快?新论文盘点9类生成模型代表作

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT的出现,彻底将生成AI推向爆发。

但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——

图像、视频、代码、3D模型、音频、文本、科学知识……

尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。

4924fb0170d80753d7e54ac51b48a21e.png

这不,立刻有学者写了篇论文,对2022年新出现的主流生成模型进行了年终盘点。

dcb8bdce95dc8d0e5f7ed2e2c473e907.png

一起来看看这两年间,各领域的AI生成模型进展究竟怎么样了。

9大生成模型,最新代表作是?

这篇论文将AI生成模型分成了9大类。

下图是2022年前后,在生成效果上达到最优的模型总览:

9e7d0e0574e8eb6b039172c2e1fda644.png

除了谷歌LaMDA和Muse以外,所有模型均为2022年发布。

其中,谷歌LaMDA虽然是2021年发布的,但在2022年又爆火了一波;Muse则是2023年刚发布的,但论文声称自己在图像生成性能上达到SOTA,因此也统计了进去。

b9d05bcda275caba2acaac37795869fc.png

文本-图像生成

这方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。

DALL·E2是来自OpenAI的生成模型,在零样本学习上做出大突破。与DALL·E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL·E2取得了不错的生成效果。

下图是DALL·E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图像:

b67cdb7eac98dbeaf864396066832359.png

Imagen来自谷歌,基于Transformer模型搭建,其中语言模型在纯文本数据集上进行了预训练。Imagen增加了语言模型参数量,发现效果比提升扩散模型参数量更好。

下图是Imagen根据“一只可爱的柯基住在寿司做的房子里”生成的图像:

661b6e1221394b14ab2b588c528f0a3a.png

Stable Diffusion由慕尼黑大学的CompVis小组开发,基于潜在扩散模型打造,这个扩散模型可以通过在潜表示空间中迭代去噪以生成图像,并将结果解码成完整图像。

Muse由谷歌开发,基于Transformer模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比Stable Diffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。

下图是Muse与DALL·E2和Imagen的生成效果对比:

fd65ceca9008680d0cb680fef13d14f1.png

文本-3D模型生成

主要代表作有Dreamfusion、Magic3D。(这里没有把OpenAI的Point·E统计进去,可能是生成效果上没有达到SOTA)

DreamFusion由谷歌和UC伯克利开发,基于预训练文本-2D图像扩散模型实现文本生成3D模型。采用类似NeRF的三维场景参数化定义映射,无需任何3D数据或修改扩散模型,就能实现文本生成3D图像的效果。

下图是DreamFusion生成“穿夹克的松鼠”3D效果:

38143548f63af1b4fab67286ca21debe.png

Magic3D由英伟达开发,旨在缩短DreamFusion图像生成时间、同时提升生成质量。具体来说,Magic3D可以在40分钟内创建高质量3D网格模型,比DreamFusion快2倍,同时实现了更高分辨率,并在人类评估中以61.7%的比率超过DreamFusion。

fcd33b1d6c9b46a9190b241bd11f9b6b.png

图像-文本模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo是DeepMind推出的小样本学习模型,基于可以分析视觉场景的视觉模型和执行基本推理的大语言模型打造,其中大语言模型基于文本数据集训练。输入带有图像或视频的问题后,模型会自动输出一段文本作为回答。

7430a7e3a53d6300894d105558e9663a.png

VisualGPT是OpenAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。

a74bca68e117de8dcd6b9cbdcf9e95cc.png

文本-视频模型生成

主要代表作有Phenaki、Soundify。

Phenaki由谷歌打造,基于新的编解码器架构C-ViViT将视频压缩为离散嵌入,能够在时空两个维度上压缩视频,在时间上保持自回归的同时,还能自回归生成任意长度的视频。

6b013a3707bd5051ac599abc1b0f90a3.png

Soundify是Runway开发的一个系统,目的是将声音效果与视频进行匹配,即制作音效。具体包括分类、同步和混合三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。

文本-音频模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM由谷歌开发,将输入音频映射到一系列离散标记中,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。

Jukebox由OpenAI开发的音乐模型,可生成带有唱词的音乐。通过分层VQ-VAE体系将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。不过目前模型仍然局限于英语。

Whisper由OpenAI开发,实现了多语言语音识别、翻译和语言识别,目前模型已经开源并可以用pip安装。模型基于68万小时标记音频数据训练,包括录音、扬声器、语音音频等,确保由人而非AI生成。

86d417577f82183a68b70b23a990267d.png

文本-文本模型生成

主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。

ChatGPT由OpenAI生成,是一个对话生成AI,懂得回答问题、拒绝不正当的问题请求并质疑不正确的问题前提,基于Transformer打造。它用人类打造的对话数据集、以及InstructGPT数据集的对话格式进行训练,此外也可以生成代码和进行简单数学运算。

7b168003b0beef53a218bee008737674.png

LaMDA基于Transformer打造,利用了其在文本中呈现的长程依赖关系能力。其具有1370亿参数,在1.56T的公共对话数据集和网页文本上进行训练,只有0.001%的训练数据被用于微调,这也是它效果好的原因之一。

c7b23346252ff03fa9c5912460ed8a95.png

PEER由Meta AI打造,基于维基百科编辑历史进行训练,直到模型掌握完整的写作流程。具体来说,模型允许将写作任务分解成更多子任务,并允许人类随时干预,引导模型写出人类想要的作品。

Speech from Brain由Meta AI打造,用于帮助无法通过语音、打字或手势进行交流的人,通过对比学习训练wave2vec 2.0自监督模型,基于非侵入式脑机接口发出的脑电波进行解读,并解码大脑生成的内容,从而合成对应语音。

文本-代码模型生成

主要代表作有Codex、AlphaCode。

Codex是OpenAI打造的编程模型,基于GPT-3微调,可以基于文本需求生成代码。首先模型会将问题分解成更简单的编程问题,随后从现有代码(包含库、API等)中找到对应的解决方案,基于GitHub数据进行训练。

AlphaCode由DeepMind打造,基于Transformer模型打造,通过采用GitHub中715.1GB的代码进行预训练,并从Codeforces中引入一个数据集进行微调,随后基于Codecontests数据集进行模型验证,并进一步改善了模型输出性能。

dcf6db181db6137032207c46f0005f84.png

文本-科学知识模型生成

主要代表作有Galactica、Minerva。

Galatica是Meta AI推出的1200亿参数论文写作辅助模型,又被称之为“写论文的Copilot模型”,目的是帮助人们快速总结并从新增论文中得到新结论,在包括生成文本、数学公式、代码、化学式和蛋白质序列等任务上取得了不错的效果,然而一度因为内容生成不可靠被迫下架。

Minerva由谷歌开发,目的是通过逐步推理解决数学定量问题,可以主动生成相关公式、常数和涉及数值计算的解决方案,也能生成LaTeX、MathJax等公式,而不需要借助计算器来得到最终数学答案。

d27ffe0b2824d7bb776064604cbe0264.png

其他生成模型

主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。

AlphaTensor由DeepMind开发,懂得自己改进矩阵乘法并提升计算速度,不仅改进了目前最优的4×4矩阵解法,也提升了70多种不同大小矩阵的计算速度,基于“棋类AI”AlphaZero打造,其中棋盘代表要解决的乘法问题,下棋步骤代表解决问题的步骤。

GATO由DeepMind开发,基于强化学习教会大模型完成600多个不同的任务,包含离散控制如Atari小游戏、推箱子游戏,以及连续控制如机器人、机械臂,还有NLP对话和视觉生成等,进一步加速了通用人工智能的进度。

PhysDiff是英伟达推出的人体运动生成扩散模型,进一步解决了AI人体生成中漂浮、脚滑或穿模等问题,教会AI模仿使用物理模拟器生成的运行模型,并在大规模人体运动数据集上达到了最先进的效果。

2964caf5e609f61280650de3052a300f.png

作者介绍

两位作者均来自西班牙卡米亚斯大主教大学(Universidad Pontificia Comillas)。

7fa40622e62305ffd49cfdcbf89b1980.png

一作Roberto Gozalo-Brizuela,目前是卡米亚斯大主教大学研究助理(Investigador asociado),从事AI相关的项目研究工作。

d11f676e804e5b2ed3050b1d76d745bb.png

Eduardo C. Garrido-Merchán,卡米亚斯大主教大学助理教授,研究方向是贝叶斯优化、机器学习、强化学习、生成式AI等。

你感觉哪个领域的生成式AI进展最大?

论文地址:
https://arxiv.org/abs/2301.04655

参考链接:
https://twitter.com/1littlecoder/status/1615352215090384899

百度研究院、阿里达摩院、量子位智库

年度十大科技报告

总结2022,预见2023。来自百度研究院、阿里达摩院和量子位智库的年度十大科技报告均已发布,点击下方图片即可跳转查看。

百度研究院

e8babeec4ef25767f0c009c851c90eb6.jpeg

阿里达摩院

9c2ba69661b415e9d9b0d04412a5f1b1.jpeg

量子位智库

abd7809577a9e1359ce2f1493a2fbcb0.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72513.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型技术发展概述 - (一)

文本内容参考论文《A Survey of Large Language Models》 论文标题:A Survey of Large Language Models 论文链接:https://arxiv.org/pdf/2303.18223v10.pdf 因为这个论文内容太多了,所以我的文章分成几篇来展示!目录如下&#x…

清华大学登顶亚洲第一:2019泰晤士高等教育世界大学排名发布

原文:清华小五爷园(ID:xiaowuyeyuanthu)量子位 获授权编辑转载 2018年9月26日全球四大权威高校排行榜之一,泰晤士高等教育世界大学排名(Times Higher Education World University Rankings)公布…

2020莱斯大学计算机全球排名,2020QS世界大学排名:美国莱斯大学排名全球第85位,高于中科大...

原标题:2020QS世界大学排名:美国莱斯大学排名全球第85位,高于中科大 美国莱斯大学是一所中等大小的私立综合性全国大学,是美国最著名的大学之一,素有“南方常春藤”之称。美国莱斯大学2020年usnews排名17,2…

USNews:2019世界大学排行榜

今天(10月30日),USNews发布2019世界大学排行榜,来自全球70多个国家的1250所知名大学入围,其中中国高校161所。 今年的USNews世界大学排名主要指标如下:全球研究声誉12.5%,地区性研究声誉 12.5%&…

CMU霸榜,北大第2,清华第3!AIRankings世界高校人工智能排行榜出炉

来源:新智元 要说当下最火的专业,莫过于人工智能了。 恰好最近AIRankings发布了一份全球大学AI相关专业排行榜。 让我们一起看看有哪些大学和机构榜上有名吧。 AI世界排名:北清综合前三 AIRankings排名综合过去十年的研究,以及通用…

19所大陆高校上榜!2021泰晤士世界大学影响力排名发布

来源:青塔学术 青塔学术获悉,4月21日,2021年泰晤士高等教育(THE)世界大学影响力排名(简称:影响力排名)发布。 今年,共有19所中国大陆高校参加影响力排名,13所…

麦吉尔大学计算机工程的世界排名,加拿大十大名校世界排名:麦吉尔大学上榜,第一名全球排名20...

加拿大是北美的发达国家,幅员辽阔,自然资源丰富,教育资源也同样非常超前,这里许多名校在世界都是鼎鼎有名的,来看看都有哪些吧! 加拿大十大名校世界排名 1、多伦多大学 排行榜,品牌排行榜 2、麦吉尔大学 排…

重磅:USNews2021世界大学排行榜出炉!清华首登亚洲第一

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 整理:公众号科研大匠 本文仅做学术分享,如有侵权,请联系删除。 10月20日,USNews发布2021世界大学排行榜。 2021年US News世界大学排名涵盖了分布在81个国家/地区…

世界顶级的计算机学校,美国大学计算机科学专业排名TOP20详情一览 世界顶尖名校谁是你的...

随着国内互联网行业的崛起,计算机专业的热门程度已经到达顶峰,越来越多的年轻人选择学习计算机相关专业,计算机科学专业就是其中之一,备受学生青睐。美国有极多大学都开设有计算机科学专业以供学生选择申请学习。接下来就一起来看…

THE发布世界大学声誉排名,清华位居全球前10

来源:泰晤士高等教育 编辑:双一流高校 10月28日,2021年度泰晤士高等教育世界大学声誉排名发布。美国哈佛大学连续第11年位居榜首,麻省理工学院位居第二,英国牛津大学攀升两名排名第三,斯坦福大学、剑桥大学…

2024QS世界大学排名公布!

来源于 青塔 QS教育集团正式发布了2024年世界大学排名,首次将就业能力和可持续发展指标纳入排名体系,成为全球唯一一个同时包含这两项指标的排名。 本次排名覆盖来自104个高等教育系统的1500所大学,排名是基于对1750多万篇学术论文和来自超过…

QS最新世界大学排名发布,清华北大获史上最高名次

北京时间6月19日,最新的2020QS世界大学排名发布,麻省理工学院第8年蝉联第一,斯坦福大学、哈佛大学随后。中国大陆高校今年表现不俗,清华大学、北京大学两所顶尖大学在此次排名中取得了史上最高名次,分别排名全球大学第…

2021计算机科学专业世界排名重磅出炉!今年排名大洗牌

一直以来,计算机专业被大学生热烈追捧,时代的趋势,市场的需求,让计算机专业获得了较强的吸金能力和就业前景。 既然,计算机科学专业这么火爆,想必大家也想了解一下该领域中最好的大学是哪些,所…

THE、软科世界大学排名数据获取

THE大学排名 THE大学排名的数据比较容易获取,THE大学排名2022,所有数据都可以在这一个网页中找到。 “any subject”下拉菜单中可以选择不同学科,如果不选的话那就是综合排名;不需要翻页,一页就是一个学科&#xff1b…

计算机专业清华世界第一!US NEWS全球大学排名出炉

程序猿(微信号:imkuqin) 猿妹 编译 综合自:https://www.usnews.com/education/best-global-universities/search 近日,《美国新闻和全球报道》(US News & World Report)公布了 2018 年全球大…

US News 2023世界大学计算机科学排名公布!清华大学再度荣登全球第一

USNews发布了最新的2023世界大学排行榜。 本年度,清华大学、北京大学以及香港中文大学等三所中国高校,携手进入全球大学排名(计算机科学)前10名。其中,清华大学再度荣登全球第一,北京大学位列全球第9位&…

19岁P8入驻阿里?从阿里的人才成长体系学习

大白整理 读完需要 8 分钟 速读仅需 3 分钟 “欧阳娜娜入职阿里了,听说年薪百万?” “职级是 P8,史上最年轻的 P8 员工。” 早在 3 月初,我们一些 HR 小伙伴们就看到各大社交平台,发消息称明星欧阳娜娜入职淘宝。近日&…

alibaba安全团队-阿里五虎将 B2B技术部门Q1 OUTING

哈哈, 中间最会摆 造型的就是我啦~~~ 左1 的是 SUDDY 左2就是传说中的刺头了 我的右边 是LARRY 角落了里面(右1) 就是 大家所说的 云舒MM了 美女哇! 哈哈!

「实在RPA·电商数字员工」契合电商数智转型需求

一、为什么说电商数智化转型很重要? 如今,电商发展速度惊人,并且已经取代了实体店购物的时代。在众多新型的消费方式下,各式的电商行业如何运作,并且在短时间内完成各项任务,提升人们的生活质量。人们生活…

阿里淘宝新势力造型合伙人P8、年薪百万的欧阳娜娜也躲不过的魔鬼面试,看的我心服口服

阿里淘宝新势力造型合伙人P8、年薪百万的欧阳娜娜跳槽了,这不是关键。 她参加了网易有道明星语音录音员/代言人的面试,这也不是关键。 关键是她教科书式的面试过程,狠狠地给我们上了一课。 我是无意间刷到的这个视频的时候,就一…