生成模型的2022年——人工智能AIGC顶级论文回顾

2022年是生成模型奇幻发展的一年,Stable Diffusion🎨创造了超现实主义的艺术, ChatGPT 💬回答了生命意义的问题,Make a Video🎥从文本生成了栩栩如生的马儿,DreamFusion✨生成了不可思议的三维模型,多个AI领域得以迅速发展,绘画、音乐、新闻创作、主播等诸多行业正在被重新定义。

下面让我们一起回顾2022年里一些引人注目的生成模型顶级论文:

模型文章链接项目链接方向
DALL-E 2[https://arxiv.org/abs/2204.06125]DALLE2-pytorch文本生成图像
Stable Diffusion[https://arxiv.org/abs/2112.10752]Stable Diffusion文本生成图像
An Image is Worth One Word[https://arxiv.org/abs/2208.01618]An Image is Worth One Word文本生成图像
Make-A-Video[https://arxiv.org/abs/2209.14792]Make-A-Video文本生成视频
Dreambooth[https://arxiv.org/abs/2208.12242]Dreambooth文本生成图像
ChatGPT[https://openai.com/blog/chatgpt/]ChatGPT人机对话
Block-NeRF[https://arxiv.org/abs/2202.05263]Block-NeRF场景重建
DreamFusion[https://dreamfusion3d.github.io/]DreamFusion文本转3D
Whisper[https://cdn.openai.com/papers/whisper.pdf]Whisper音频转文字

1、DALL-E 2:使用 CLIP 生成分层文本条件图像

DALL-E 2 通过使用两阶段模型提高了 DALL-E 文本到图像生成功能的真实性、多样性和计算效率,首先在给定文本标题的情况下生成 CLIP 图像嵌入,然后使用基于扩散的解码器生成以图像嵌入为条件的图像。
在这里插入图片描述

📝 :模型主要架构为:
先训练好一个CLIP模型,找到图像和文本对之间的相连关系。给定一个文本,CLIP的文本编码器就可以将这个文本变成一个文本特征。DALL·E2训练一个prior模型,将文本特征作为该模型的输入,输出为图像特征,将这个图像特征给解码器,从而生成一个完成的图像。

在这里插入图片描述

2、Stable Diffusion:基于潜在扩散模型的高分辨率图像合成

Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型)的文本生成图像模型。

🔔:Diffusion model相比GAN可以取得更好的图片生成效果,然而该模型需要反复迭代计算,因此训练和推理代价都很高。论文提出一种在潜在表示空间(latent
space)上进行diffusion过程的方法,从而能够大大减少计算复杂度,同时也能达到十分不错的图片生成效果。

👉:Stable diffusion相比于其它空间压缩方法,论文提出的方法可以生成更细致的图像,并且在高分辨率图片生成任务(如风景图生成,百万像素图像)上表现得也很好。

在这里插入图片描述论文将该模型在无条件图片生成(unconditional image synthesis),** 图片修复(inpainting),图片超分(super-resolution)任务上进行了实验,都取得了不错的效果。

论文中提到的条件图片生成任务包括 类别条件图片生成(class-condition), 文图生成(text-to-image), 布局条件图片生成(layout-to-image)。

3、An Image is Worth One Word:使用文本反转个性化文本到图像生成

本文提出了 personalized text-to-image generation,也即个性化的文转图生成。可以基于文本+用户给的几张图(“new concepts”)来生成新的图像,“textual inversions”用于把图片概念转换成pseudo-words(text encoder的embedding),用这个embedding表示新的concept从而生成一些具备这样概念的图片。相比GAN在embedding space上的很多技巧,本文的方法在distortion和editability上取得了很好的平衡。
在这里插入图片描述

创新思路

  1. 通过使用三五张新的‘words’在冻结权重的text-to-image model(也就是作为特征抽取器)的embedding空间的表示来学习,用户提供的概念,然后这些‘words’可以组成自然语言句子,通过启发式方法来创造个性化的创作。
  2. 对比之前的工作将给定图像转化到模型的latent space,我们转化用户提供的概念。此外,我们将这个概念表示为模型词汇表中的一个新的伪词, for more general and intuitive editing
    在这里插入图片描述

4、Make-A-Video:根据一句话就能一键生成视频

Make-A-Video——一种直接将文本到图像(T2I)生成的最新巨大进展转换为文本到视频(T2V)的方法。

Make-A-Video有三个优点:

  1. 它加快了T2V模型的训练(它不需要从头开始学习视觉和多模态表示),
  2. 它不需要成对的文本视频数据,
  3. 生成的视频继承了当今图像生成模型的广度(审美、幻想描述等方面的多样性)。

模型设计了一种简单而有效的方法,用新颖有效的时空模块建立T2I模型。首先,模型分解全时间U-Net和注意张量,并在空间和时间上近似它们。其次,模型设计了一个时空流水线来生成高分辨率和帧速率视频,其中包括视频解码器、插值模型和两个超分辨率模型,可以实现除T2V以外的各种应用。Make-a-video在时空分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频生成的最新技术

在这里插入图片描述
主要框架如上图所示,Make-A-Video由三个主要组件组成:(i)基于文本图像对训练的基本T2I模型(ii)时空卷积层和注意力层以及(iii)用于提高帧率的帧插值网络和两个用来提升画质的超分网络。

5、DreamBooth:微调文本到图像扩散模型以实现主题驱动生成

一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」🐶这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。
在这里插入图片描述

虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。

为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征

6、ChatGPT:遵循人类指令的预训练聊天机器人模型

语言模型在过去几年中通过从人工输入提示生成多样化且引人注目的文本,显示出令人印象深刻的功能。

🍒:ChatGPT 是一种专注于对话生成的语言模型,能够根据用户的文本输入,产生相应的智能回答,这个回答可以是简短的词语,也可以是长篇大论。ChatGPT使用带有人类反馈的强化学习(RLHF)微调语言模型,这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序,使它们能够更好地与人类意图保持一致。其中GPT是Generative
Pre-trained Transformer(生成型预训练变换模型)的缩写。

在这里插入图片描述
ChatGPT的训练过程分为以下三个阶段:训练监督策略模型 —— 训练奖励模型(Reward Mode,RM) —— 采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略

7、Block-NeRF:可扩展的大场景神经视图合成

在这里插入图片描述
Block-NeRF是一种NeRF新的延伸,用来表示大规模环境。在渲染城市规模的场景时,将城市场景分为多个模块(Blocks),并且将NeRF也单独分配给每个block进行渲染,在预测时动态地呈现和组合这些NeRFs。这种分解(decomposition)的过程将渲染时间与场景大小解耦(decouples),即分隔开两者之间的必然联系,使渲染能够扩展到任意大的环境,并允许对环境进行逐块更新(per-block updates ofthe environment)。

作者最终从 280 万张图像中构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染旧金山的整个社区。

8、DreamFusion:用二维扩散模型实现Text-to-3D

请添加图片描述
要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但并不存在如此大规模的3D标注数据,目前也没有一个高效的模型架构对3D数据进行降噪。DreamFusion先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

在DreamFusion中,使用了一个预先训练的二维文本到图像扩散模型,扩散模型是潜在变量生成模型,它学习将样本从可控制的噪声分布逐渐转换为数据分布。

💡 :Dreamfusion从随机的相机位置和角度反复渲染NeRF的视图,用这些渲染结果作为环绕Imagen的分数蒸馏损失函数的输入。每次迭代都包含四步:①随机采样一个相机和灯光;②从该相机和灯光下渲染NeRF的图像;③计算SDS损失相对于NeRF参数的梯度;④使用优化器更新NeRF参数。

在这里插入图片描述

9、Whisper:基于大规模弱监督的鲁棒语音识别

语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。 该技术用于 Alexa 和各种聊天机器人应用程序等设备。 而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。从任务本身来看,音频转文字可没有你想象得那么简单。如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚至方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场合,背景会有噪音,也会偶尔有中断。

在这里插入图片描述

🐾:Whisper模型是在68万小时标记音频数据的数据集上训练的,其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。

Whisper 架构是一种简单的端到端方法,实现为利用Transformer模型的编码器-解码器。输入音频被分成 30 秒一段的模块,然后转换成 log-Mel 频谱图,然后传递到编码器。编码器来计算注意力,最后把数据传递给解码器,解码器被训练来预测相应的文本,并添加特殊标记,这些标记用来单个模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

当然,这篇文章绝不是详尽无遗的,我仅仅列举了最引我注目的这十个模型项目,还有更多更多同样优秀出色的成果在2022年焕发光彩。

参考:
https://chuanenlin.medium.com/2022-top-ai-papers-a-year-of-generative-models-a7dcd9109e39

https://blog.csdn.net/weixin_44292547/article/details/126426322

💡 最后

我们已经建立了🏤T2I研学社群,如果你还有其他疑问或者对🎓文本生成图像很感兴趣,可以私信我加入社群

📝 加入社群 抱团学习:中杯可乐多加冰-采苓AI研习社

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27141.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大语言模型

前言: Open AI推出Chat GPT后,风靡全球。AI的强大表现让人折服,带来的商业效应已经逐渐扩散开来。随着人工智能越来越强,未来人们的生活受到影响也会越来越广泛。 继 OpenAI 推出 ChatGPT 后,微软迅速上线基于 GPT 模型…

OpenAI 利用基于“一致性”的图像生成器超越扩散模型

图像生成领域发展迅速。 尽管 Midjourney 和 Stable Diffusion 等流行工具使用的扩散模型可能看起来是我们所拥有的最好的,但下一个东西总是会出现——OpenAI 可能会用“一致性模型”来解决它,它已经可以完成简单的任务和 数量级比 DALL-E 之类的快。 该…

扩散模型和Transformer梦幻联动!替换U-Net,一举拿下新SOTA!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>扩散模型微信技术交流群 转载自:量子位 “U-Net已死,Transformer成为扩散模型新SOTA了!” 就在ChatGPT占尽AI圈风头时,纽约大学…

扩散模型diffusion model用于图像恢复任务详细原理 (去雨,去雾等皆可),附实现代码

文章目录 1. 去噪扩散概率模型2. 前向扩散3. 反向采样3. 图像条件扩散模型4. 可以考虑改进的点5. 实现代码 话不多说,先上代码: 扩散模型diffusion model用于图像恢复完整可运行代码,附详细实验操作流程 令外一篇简化超分扩散模型SR3来实现图…

0基础学习diffusion_model扩散模型【易理解的公式推导】Denoising Diffusion Probabilistic Models

0基础学习diffusion_model扩散模型【易理解的公式推导】 一、概述二、扩散过程(已知X0求Xt)三、逆扩散过程(已知Xt求Xt-1)1。算法流程图四、结论五、损失函数六、心得体会(优缺点分析)一、概述 DDPM论文链接: Jonathan Ho_Denoising Diffusion Probabilistic Models(NeurIPS…

07.04.2023 日语笔记

貰『もら』える(可以……吗?) コーヒーをテイクアウトでもらえますか。(可以打包咖啡吗?) マグカップで、飲み物をもらえますか。(可以自带杯子吗?) マグカップ&#x…

红蓝宝书1000题 新日本语能力考试N1文字.词汇.文法 练习+详解

红蓝宝书1000题 新日本语能力考试N1文字.词汇.文法 练习详解pdf百度云免费下载 本书是继《新版中日交流标准日本语》初、中级后,由人民教育出版社与日本光村图书出版株式会社通力合作、精心编写的一套日语自学读本。 本书由知名的日本语学、汉学以及日语教育界的学者执笔,充分…

apple watch可以使用第三方表盘了,Apple Watch 更换第三方表盘需求

apple watch可以使用第三方表盘了,Apple Watch 更换第三方表盘需求 对于 Apple Watch 用户来说,表盘的选择太少而且过于单调。那么,自带的表盘看腻了如何更换第三方表盘呢? 前几代apple watch无法使用新表盘,想要实现更…

Applewatch6/ Applese价格曝光 苹果最新款手表参数区别对比

价格方面,Apple Watch Series 6GPS 版 3199 元起售,蜂窝网络版 3999 元起售。Apple Watch SE GPS 版 2199 元起售,蜂窝网络版 2499 元起售。 Apple Watch Series 6 新品活动 优惠空前机会不容错过 https://www.apple.com.cn/6 Apple Watch Se…

苹果手表计算机功能键,Apple Watch上的2个按键是这么玩的

原标题:Apple Watch上的2个按键是这么玩的 点评:苹果不说,但是你要知道的用法。 Apple Watch是苹果全新的产品,代表了苹果全新的设计理念,如此一来,操作和交互方式就与手机自然也有所不同。结果有的小伙伴把…

如何设置并将你的iWatch和iPhone配对

如何设置并将你的iWatch和iPhone配对 一旦你买到一个iWatch,拿回家并拆封,下面教你如何设置。 iWatch是这样一个装置,它被设计出来和你的iPhone一起使用。它可以说是一个iPhone配件,它们的关系非常亲密。这也是为什么设置iWatch感…

Apple Watch发售在即 苹果门店大变脸

本周五,苹果公司将正式发售人气如虹的智能手表Apple Watch,有意购买者将有机会尝试不同尺寸、表带款式和设定,并在4月24日正式铺货前先行预订。 苹果零售业务主管安吉拉阿伦茨(Angela Ahrendts)一直在和首席设计师乔尼…

android+wear+和iphone,Android Wear手表兼容iPhone:和苹果抢用户

原标题:Android Wear手表兼容iPhone:和苹果抢用户 北京时间9月1日早间消息,不愿使用Apple Watch智能手表的用户现在有了新选择:Android Wear设备。 Android Wear首席产品经理杰夫常(Jeff Chang)表示,Android Wear将通过…

如何更改Apple Watch 上的表盘?

我们在使用Apple Watch的时候,您可以为表盘选取不同的设计、调整颜色,以及添加复杂功能。您甚至可以将时间提前。那我们该如何操作呢?需要的朋友快和小编一起来看看吧! 如何在 Apple Watch 上切换表盘 1.在表盘上,从…

Apple Watch使用指南:所有Apple Watch图标和符号含义

Apple Watch是iPhone的缩影,具有“ n”个功能,苹果为它们制定了各种不同的图标和符号。这篇文章详细总结了所有Apple Watch图标和符号含义,还不了解的朋友快来学习一下吧! 雷电的力量 1、绿色闪电 我们大多数人都知道这个常见标…

watch的使用方法

1、 通过 watch 监听 data/computed 数据的变化。 2、通过 watch 监听 obj 数据的变化。(深度监听 deep) 因为修改是修改的对象里某个属性的值,监听不到user对象,所以要深度监听 网页打开 handler就执行一次 3.通过 watch 监听 data 数据的…

杰理-手表-AC701-watch-添加表盘

添加表盘 1.复制一个表盘,更改名称表盘6 2.修改表盘6路径下的copy_file.bat 3.修改表盘预览图资源名字 4.表盘文件夹重新命名 5.批处理添加表盘的资源打包处理,注意表盘资源的名字 6.添加背景图片,时分秒 保存编译 7.在模式界面…

苹果设计可变色Apple Watch表带,智能穿戴玩法多

苹果最新技术专利显示,苹果正在为 Apple Watch 设计一款可变色的表带,可以根据佩戴者所穿着的服装、所在的环境等自动改变颜色。据介绍,这款表带里的灯丝具有电致变色功能,可以通过施加不同的电压,来实现显示多种颜色或…

科研在线实用工具

————————————————————————————————————————— SCI文献查找: Sci-Hub: 将知识带给每个人Sci-Hub网站。免费获取学术期刊。免费下载来自ScienceDirect、IEEE、Wiley、Springer、Nature及其他的研究论文。https://sci-hub.s…

人工智能前沿——深度学习热门领域(确定选题及研究方向)

近年来,人工智能发展迅猛,其主要动力来自深度学习。深度学习的炙手可热源自于它对人工智能技术发展的整体促进和在广泛应用场景中的巨大应用价值。毫无疑问,深度学习仍旧是当今时代人工智能前沿技术的核心。 目录 一、计算机视觉(…