一文看尽SOTA生成式模型:9大类别21个模型全回顾!

a7c8f60ca2f586b1b2bb6e4daa6e1351.png

来源:新智元 极市平台
本文约3800字,建议阅读5分钟本文总结了2022年发布的21个生成式模型,一次看明白生成式模型的发展脉络!

过去的两年时间里,AI界的大型生成模型发布呈井喷之势,尤其是Stable Diffusion开源和ChatGPT开放接口后,更加激发了业界对生成式模型的热情。

但生成式模型种类繁多,发布速度也非常快,稍不留神就有可能错过了sota。

f8872dbb5843a8890400fc8fecf401a9.png

最近,来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展,将生成式模型按照任务模态、领域分为了九大类,并总结了2022年发布的21个生成式模型,一次看明白生成式模型的发展脉络!

d2542f1245342fa602e337da22e5b85b.png

论文链接:https://arxiv.org/abs/2301.04655

生成式AI分类

模型可以按照输入和输出的数据类型进行分类,目前主要包括9类。

37dd1acae382eb7ab1194ef5d115439a.png

有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型。

18874c215fec67574f25e20aa3825c21.png

其主要原因是,为了能够估计这些模型的参数,必须拥有极其庞大的计算能力,以及在数据科学和数据工程方面高度熟练且经验丰富的团队。

因此,也只有这些公司,在收购的初创公司和与学术界合作的帮助下,能够成功部署生成式人工智能模型。

在大公司参与初创企业方面,可以看到微软向OpenAI投资了10亿美元,并帮助他们开发模型;同样,谷歌在2014年收购了Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开发的,Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

同样,其他项目也是由一家公司与一所大学合作开发的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,而且OpenAI已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段。

638d6a4248ae5a76332202845cb289a9.png

具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果。

为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding。

605ac3511738ab532a7092cefa5c9ee6.png

其他的模型还包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

对于某些行业,仅能生成2D图像还无法完成自动化,比如游戏领域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术,即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本。

4aadffd41d7448e241f6909c57cbb1a9.png

相比其他方法主要是对像素进行采样,在参数空间的采样比在像素空间的采样要难得多,DreamFusion使用了一个可微的生成器,专注于创建从随机角度渲染图像的三维模型。

28ea8a989021742aaff59d13b3a5788f.png

其他模型如Magic3D由英伟达公司开发。

Image-to-Text模型

获得一个描述图像的文本也是很有用的,相当于图像生成的逆版本。

Flamingo

该模型由Deepmind开发,在开放式的视觉语言任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

656abb8b1a2d98036fe880d56152c18b.png

具体来说,Flamingo的输入包含视觉条件下的自回归文本生成模型,能够接收与图像或视频交错的文本token序列,并生成文本作为输出。

用户可以向模型输入query,并附上一张照片或一段视频,模型就会用文本答案来回答。

da192d8e28e60b049cabaca2f0c0af52.png

Flamingo模型利用了两个互补的模型:一个是分析视觉场景的视觉模型,一个是执行基本推理形式的大型语言模型。

VisualGPT

VisualGPT是一个由OpenAI开发的图像描述模型,能够利用预训练语言模型GPT-2中的知识。

为了弥合不同模态之间的语义差距,研究人员设计了一个全新的编码器-解码器注意力机制,具有整流门控功能。

896f3c22dcc83990e4f5f25ad6c4b3c5.png

VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据,能够提高图像描述模型的数据效率,能够在小众领域得到应用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开发制作,可以在给定一连串文字提示的情况下,进行真实的视频合成。

Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。

为了解决数据问题,研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练,最终获得了超越视频数据集中的泛化能力。

主要是图像-文本数据集往往有数十亿的输入数据,而文本-视频数据集则小得多,并且对不同长度的视频进行计算也是一个难题。

f52e047cc248819aa030afb7198dca5f.png

Phenaki模型包含三个部分:C-ViViT编码器、训练Transformer和视频生成器。

76f662e4611e832084c06da273771921.png

将输入token转换为embedding后,接着经过时序Transformer和空间Transformer,再使用一个没有激活的单一线性投影,将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频,甚至能够处理一些数据集中不存在的新概念。

相关模型包括Soundify。

Text-to-Audio模型

对于视频生成来说,声音也是必不可缺的部分。

AudioLM

该模型是由谷歌开发,可用于生成高质量的音频,并具有长距离一致性。

AudioLM的特别之处在于将输入的音频映射成一个离散的token序列,并将音频生成作为该表示空间的语言建模任务。

通过对原始音频波形的大型语料库进行训练,AudioLM成功学会了在简短的提示下生成自然和连贯的连续的语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不需要在训练时添加符号表示。

af539c7c8e8b1b2cad23356f6268156d.png

由于音频信号涉及多个尺度(scale)的抽象,所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

在主观评价方面,评分者被要求听一个10秒的样本,并决定它是人类讲话还是合成的语音。基于收集到的1000个评分,比率为51.2%,与随机分配标签没有统计学差异,即人类无法区分合成和真实的样本。

其他相关模型包括Jukebox和Whisper。

Text-to-Text模型

问答任务常用。

ChatGPT

广受欢迎的ChatGPT由OpenAI开发,以对话的方式与用户进行互动。

用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出不正确的输入前提并拒绝不恰当的请求。

具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。

28f6c3cd4c433aa72391807edb8400ff.png

最初的模型是使用监督学习下的微调来训练的,然后由人类来提供对话,在对话中他们互相扮演用户和人工智能助理,然后由人修正模型返回的回复,并用正确的答案帮助模型改进。

将制作的数据集与InstructGPT的数据集混合在一起,转换为对话格式。

其他相关模型包括LaMDA和PEER。

Text-to-Code模型

和text-to-text类似,只不过生成的是特殊类型的文本,即代码。

Codex

该模型由OpenAI开发,可以将文本翻译成代码。

Codex是一种通用的编程模型,基本上可以应用于任何编程任务。

人类在编程时的活动可以分为两部分:

1)将一个问题分解成更简单的问题;

2)将这些问题映射到已经存在的现有代码(库、API或函数)中。

其中第二部分是对程序员来说最浪费时间的部分,也是Codex最擅长的地方。

1bd57af9d4c25e56af4c369148da0009.png

训练数据于2020年5月从GitHub上托管的公共软件库中进行收集,包含179GB的Python文件,并在GPT-3的基础上进行微调,其中已经包含了强大的自然语言表征。

相关模型还包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目标之一,但要取得成果仍然有很长的路要走。

Galactica

该模型是由Meta AI和Papers with Code联合开发的,可用于自动组织科学文本的大型模型。

Galactica的主要优势在于即便进行多个episode的训练后,模型仍然不会过拟合,并且上游和下游的性能会随着token的重复使用而提高。

并且数据集的设计对该方法至关重要,因为所有的数据都是以通用的markdown格式处理的,从而能够混合不同来源的知识。

58d38a0a755619402addb4078eb9fb3a.png

引文(citations)通过一个特定的token来处理,使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。

此外,该模型在仅有解码器的设置中使用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务。

MinervaMinerva的主要目的就是解决决数学和科学问题,为此收集了大量的训练数据,并解决了定量推理问题,大规模模型开发问题,还采用了一流的推理技术。

Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题,即输入是需要包含计算和符号操作,而不用引入外部工具。

其他模型

还有一些模型不属于前面提到的类别。

AlphaTensor

由Deepmind公司开发,因其发现新算法的能力,在业界是一个完全革命性的模型。

在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要,从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。

d9ab71507621f5d64536cd8d75c6d480.png

该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解。

在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性。

GATO

该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用。

具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等。

4e0ef5a79efa9e179f34fced63afe11d.png

在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性。

这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功。

目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模。

cffa5d432a60f9b89293b03ce4a38a83.png

其他已发表的生成性人工智能模型包括生成human motion等。

参考资料:

https://arxiv.org/abs/2301.04655

编辑:王菁

f8233a83b1bca56259a0e8d3d64ed88f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16143.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多模态大模型综述: LLaVA, MiniGPT4

文章目录 LLaVA一. 简介1.1. 摘要1.2. 引言 二. 相关工作三. 基于GPT辅助的视觉指令数据生成四. Visual Instruction Tuning4.1 网络结构4.2 训练 5 实验5.1 多模态聊天机器人5.2 ScienceQA MiniGPT4一. 简介1.1 Overview 二. 方法2.1 网络结构图2.2 第一阶段训练2.3 高质量对齐…

被称为下一代风口的AIGC到底是什么?

近期,短视频平台上“AI绘画”的概念爆火,ChatGPT这一词条也刷爆了科技圈,而这些概念同属于一个领域——AIGC。2022年12月,Science杂志发布的2022年度科学十大突破中,AIGC入选。 那么,被称之为是AI下一代风…

Postman如何设置成中文?(汉化)

1. 点击下方这个链接,进入gitee,在里面下载一个插件 Releases hlmd/Postman-cn GitHub 进入之后是这个样子的: 2.看一下自己的postman是什么版本的,然后在gitee下载对应的APP包(注意:是App.zit包。不要下…

强大的编辑器 Cursor,免费集成了 ChatGPT-4

AI 时代来临,还不会利用工具帮助你工作,很容易就会被淘汰了。 就在上一周是 AI,集体亮相的一周,ChatGPT-4、new-bing、文心一言、Claude 等等,一一体验过这些工具,能明显感觉到作为 CV 工程师的焦虑。 在…

刚刚!BingChat全面开放,人人可用!

大家好,我是鸟哥。 如题,微软真是下血本。昨天毫无征兆的宣布BingChat全面开放,人人可用!众所周知ChatGPT得使用门槛有多高,而BingChat底层调用的是GPT4.0的模型,这无疑是白嫖GPT4.0最简单的姿势了。鸟哥一…

使用Microsoft Edge dev浏览器突然找不到new bing,bing chat消失

bing chat在原本bing的主页但关闭后再次打开消失不见,请清除cookies并重新打开浏览器。 之前bing的时候找不到这种情况,可能是Mac的小bug吧,发个博客记录一下。 更新Mac系统后重新开机,再打开Microsoft edge dev的bing页面就是如…

英伟达4070Ti 6499元起/ 微软要推出ChatGPT版Bing/ 苹果头显被曝售价3000美元... 今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好~今天是新年的第一个星期三——还有两天又到周末啦。 科技圈还有哪些有意思的事? 日报君在此呈上~ 微软要推出ChatGPT版Bing搜索 最近,OpenAI的聊天工具ChatGPT成了AI界顶流,不过它本身没有网…

前哈工大教授开发的ChatALL火了!可同时提问17个聊天模型,ChatGPT/Bing/Bard/文心/讯飞都OK...

丰色 发自 凹非寺量子位 | 公众号 QbitAI 今天的你,是否还在几个聊天大模型之间“反复横跳”? 毕竟各家训练数据和方法不尽相同,擅长和不擅长的东西也都不一样。 现在,不用这么麻烦了。 有人开发了一个名叫“ChatALL”的应用&…

用AP和SAT可以申请香港大学吗?

留学计划的制定是一个不断需要完善修改的过程,有一些学生和家长,抱着申请美国大学的初衷选择了AP和SAT课程,但是在留学准备过程中,又觉得香港更适合自己,离家近,学校教育质量也高,在申请美国的同…

中断服务函数

51中断:5个 ES串口,ET1定时器1,ET0定时器0,EX1外部中断1,EX0外部中断0 首先要了解相关的与中断有关的寄存器: IE寄存器:中断控制的寄存器,要实现中断就要配置该寄存器。 EA为总开关…

中断及中断服务函数

1.引入 按键点灯的问题一般用轮询的方式去解决。 轮询天生有缺陷: 1.浪费CPU2.占用总线,Bus is always busy.3.轮询响应时差,响应不及时的。有没有办法不让CPU主动去询问事件是否发生,而是当事件发生 …

海睿思分享 | 类chatgpt模型在信息抽取领域的应用

大语言模型(LLM,Large Language Model)是指能够处理海量数据、拥有百亿级参数的深度学习模型,它已成为⼈⼯智能领域中的新热点。2022 年 11 ⽉ 30 号 ChatGPT 发布,其卓越的性能表现给整个⾏业带来了巨⼤的冲击。⼈们不…

拉伯证券|人心动了?刚刚,A股、港股大涨!

昨日A股传言较多,引发波动。上一年10月底11月初,也有类似情况。换个视点看,这说明人心开端动了,至于怎样个“思变”法,市场可能现已给出了答案! 今天上午,A股大涨,北向资金净流入110…

全球行情_全球股市中心

全球股市指数指数自动更新,报价单位均为当地货币,行情时间均为北京时间 圣保罗 布宜诺斯艾利斯 冰岛 斯德哥尔摩 赫尔辛基 奥斯陆 哥本哈根 莫斯科 布鲁塞尔 都柏林 阿姆斯。环球行情中心 13 136 088% 注行情统一显示为红跌绿涨。“指南针行情网”是北京…

反常识—股票暴跌收益会更高

反常识—股票暴跌收益会更高 这节课我们来学习一下股票。先来了解一下什么是股票? 股票是公司的所有权凭证。持有股票的人是公司的股东,拥有公司的一部分。可以说你持有一家公司的股票,你就是这家公司的老板。持有股票比例最多的人&#xf…

9 大指标分析 Solana 的熊市危机

Daniel, 2023 年 1 月 Solana 是一个去中心化的区块链网络,由 Solana 实验室设计并在2020年推出,具有快速、可扩展和安全的特点。 由于其快速的交易速度和低交易费用,Solana 在 2020 年和 2021 年获得了极大的关注,这使得它对去中…

九龙证券|美国散户疯狂抄底,嗅到了什么?华尔街最新警告

当地时间周五,美股三大指数低开后经历“过山车”行情,虽然盘中一度转涨,但午后再度回落。截至收盘,道指跌0.38%,报收33926.01点;纳指跌1.59%,收于12006.95点;标普500指数跌1.04%&…

九龙证券|一夜暴跌36%,美股走势分化,标普指数创近2月最差周度表现

当地时间2月10日,美股三大指数收盘涨跌纷歧。道指涨0.5%,标普500指数涨0.22%,纳指跌0.61%。 受国际油价明显上升影响,动力板块领涨,埃克森美孚、康菲石油涨超4%。大型科技股走低,特斯拉、英伟达跌约5%。热门…

表单验证:名称、电话号码、邮箱

表单验证:名称、手机号码、邮箱 文章目录 目录前言一、名称验证的正则表达式二、电话号码验证的正则表达式三、邮箱验证的正则表达式总结 前言 在大部分web项目中都离不开表单验证,这里就简单介绍几个常见的验证内容,后续慢慢更新 一、名称表…

【智能手表方案推荐】基于中科蓝讯BT8958B2 的 Smart Watch 方案介绍

目录 ►场景应用图 ►产品实体图 ►展示板照片 ►方案方块图 ►核心技术优势 ►方案规格 随着人们对于智能手表功能性需求的提高,智能手表的应用方向需要不仅能满足于日常生活中可替代手机为用户提供方便的场景,如蓝牙通话,还需要对人体…