扩散模型和Transformer梦幻联动!替换U-Net,一举拿下新SOTA!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>扩散模型微信技术交流群

转载自:量子位

“U-Net已死,Transformer成为扩散模型新SOTA了!”

就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。

6db0dd67c805f0bca7eec0a90c957c12.png
MILA在读ML博士生Ethan Caballero

论文创意性地将Transformer与扩散模型融合,在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM,打破了U-Net统治扩散模型的“普遍认知”。

f0c0de1138f54e7555fa2801d21c9fc7.png

网友给这对新组合命名也是脑洞大开:

All we need is U-Transformer

希望他们没有错过Transffusion这个名字。

b2eb88dbd3eda292fb1d95f4412e6971.png

要知道,这几年虽然Transformer占尽风头,但U-Net在扩散模型领域仍然一枝独秀——

无论是“前任王者”DALL·E2还是“新晋生成AI”Stable Diffusion,都没有使用Transformer作为图像生成架构。

b53820c96dca0a7f255bf04152c38cac.png
英伟达AI科学家Jim Fan

如今新研究表明,U-Net并非不可用Transformer替代。

“U-Net并非不可替代”

论文提出的新架构名叫Diffusion Transformers(DiTs)。

架构保留了很多ViT的特性,其中整体架构如图左(包含多个DiT模块),具体的DiT模块组成如图右:

656cd4140b451e2f2ada1ac6e7de1a81.png

更右边的两个灰色框的模块,则是DiT架构的“变体”。主要是探讨在条件输入下,不同的架构是否能对信息进行更好的处理,包括交叉注意力等。

最终结果表明,还是层归一化(Layer Normalization)更好用,这里最终选用了Adaptive Layer Normalization(自适应层归一化)的方法。

对于这篇论文研究的目的,作者表示希望探讨扩散模型中不同架构选择的重要性,以及也是给将来生成模型的评估做一个评判标准。

先说结果——作者认为,U-Net的归纳偏置(inductive bias),对于扩散模型性能提升不是必须的。

与之相反,他们能“轻松地”(readily)被Transformer的标准架构取代。

311a6c45114fa7a7dd64b8dea9e13017.png

有网友发现,DALL·E和DALL·E2似乎都有用到Transformer。

这篇论文和它们的差异究竟在哪里?

事实上,DALL·E虽然是Transformer,但并非扩散模型,本质是基于VQVAE架构实现的;

3fbc868d14708ac0dcc279726edb487c.png

至于DALL·E2和Stable Diffusion,虽然都分别将Transformer用在了CLIP和文本编码器上,但关键的图像生成用的还是U-Net。

64c0d961b3d8b668db087c33d2b564e3.png
经典U-Net架构

不过,DiT还不是一个文本生成图像模型——目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet风”,不过英伟达AI科学家Jim Fan认为,将它改造成想要的风格和加上文本生成功能,都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入,就能很快地将DiT改造成一个文生图模型:

Stable-DiT马上就要来了!

a109b6dc8ddf9143177eca03b593c07f.png

所以DiTs在生成效果和运算速率上,相比其他图像生成模型究竟如何?

在ImageNet基准上取得SOTA

为了验证DiTs的最终效果,研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说,他们尝试了四种不同模型深度和宽度的配置:DiT-S、DiT-B、DiT-L和DiT-XL,在此基础上又分别训练了3个潜块大小为8、4和2的模型,总共是12个模型。

2a6ed8bb42ce139a31305eb7d0460840.png

从FID测量结果可以看出,就像其他领域一样,增加模型大小和减少输入标记数量可以大大提高DiT的性能。

FID是计算真实图像和生成图像的特征向量之间距离的一种度量,越小越好。

换句话说,较大的DiTs模型相对于较小的模型是计算效率高的,而且较大的模型比较小的模型需要更少的训练计算来达到给定的FID。

其中,Gflop最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小为2,当训练时间足够长时,DiT-XL/2就是里面的最佳模型。

c9acc2dbc389f294d4d03f5ab3701797.png

于是在接下来,研究人员就专注于DiT-XL/2,他们在ImageNet上训练了两个版本的DiT-XL/2,分辨率分别为256x256和512x512,步骤分别为7M和3M。

当使用无分类器指导时,DiT-XL/2比之前的扩散模型数据都要更好,取得SOTA效果:

在256x256分辨率下,DiT-XL/2将之前由LDM实现的最佳FID-50K从3.60降至了2.27。

并且与基线相比,DiTs模型本身的计算效率也很高:

DiT-XL/2的计算效率为119 Gflops,相比而言LDM-4是103 Gflops,ADM-U则是742 Gflops。

fa20265d98a69e9cbe3ec1050f71a092.png

同样,在512x512分辨率下,DiT-XL/2也将ADM-U之前获得的最佳FID 3.85降至了3.04。

不过此时ADM-U的计算效率是2813 Gflops,而XL/2只有525 Gflops。

64792d9f463f4c31219dd1f9fc6ec461.png

研究作者

本篇论文作者为UC伯克利的William Peebles和纽约大学的谢赛宁。

8829250b14e198d21ca3e8b504f94af1.png

Scalable Diffusion Models with Transformers
论文地址:

https://arxiv.org/abs/2212.09748

代码:https://github.com/facebookresearch/DiT

William Peebles,目前是UC伯克利的四年级博士生,本科毕业于麻省理工学院。研究方向是深度学习和人工智能,重点是深度生成模型。

1272479fee2fb5f538b83c86738bcf1f.png

之前曾在Meta、Adobe、英伟达实习过,这篇论文就是在Meta实习期间完成。

谢赛宁,纽约大学计算机科学系助理教授,之前曾是Meta FAIR研究员,本科就读于上海交通大学ACM班,博士毕业于UC圣迭戈分校。

谢赛宁读博士时曾在FAIR实习,期间与何恺明合作完成ResNeXt,是该论文的一作,之前何恺明一作论文MAE他也有参与。

4790ddbd952cfc2cfaded35df82fa0a8.png

当然,对于这次Transformer的表现,也有研究者们表示“U-Net不服”。

例如三星AI Lab科学家Alexia Jolicoeur-Martineau就表示:

U-Net仍然充满生机,我相信只需要经过细小调整,有人能将它做得比Transformer更好。

看来,图像生成领域很快又要掀起新的“较量风暴”了。

参考链接:
[1]https://twitter.com/ethanCaballero/status/1605621603135471616
[2]https://www.wpeebles.com/DiT
[3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

 

点击进入—>扩散模型微信技术交流群

DiT论文和代码下载

 

后台回复:DiT,即可下载上面论文和代码

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27137.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扩散模型diffusion model用于图像恢复任务详细原理 (去雨,去雾等皆可),附实现代码

文章目录 1. 去噪扩散概率模型2. 前向扩散3. 反向采样3. 图像条件扩散模型4. 可以考虑改进的点5. 实现代码 话不多说,先上代码: 扩散模型diffusion model用于图像恢复完整可运行代码,附详细实验操作流程 令外一篇简化超分扩散模型SR3来实现图…

0基础学习diffusion_model扩散模型【易理解的公式推导】Denoising Diffusion Probabilistic Models

0基础学习diffusion_model扩散模型【易理解的公式推导】 一、概述二、扩散过程(已知X0求Xt)三、逆扩散过程(已知Xt求Xt-1)1。算法流程图四、结论五、损失函数六、心得体会(优缺点分析)一、概述 DDPM论文链接: Jonathan Ho_Denoising Diffusion Probabilistic Models(NeurIPS…

07.04.2023 日语笔记

貰『もら』える(可以……吗?) コーヒーをテイクアウトでもらえますか。(可以打包咖啡吗?) マグカップで、飲み物をもらえますか。(可以自带杯子吗?) マグカップ&#x…

红蓝宝书1000题 新日本语能力考试N1文字.词汇.文法 练习+详解

红蓝宝书1000题 新日本语能力考试N1文字.词汇.文法 练习详解pdf百度云免费下载 本书是继《新版中日交流标准日本语》初、中级后,由人民教育出版社与日本光村图书出版株式会社通力合作、精心编写的一套日语自学读本。 本书由知名的日本语学、汉学以及日语教育界的学者执笔,充分…

apple watch可以使用第三方表盘了,Apple Watch 更换第三方表盘需求

apple watch可以使用第三方表盘了,Apple Watch 更换第三方表盘需求 对于 Apple Watch 用户来说,表盘的选择太少而且过于单调。那么,自带的表盘看腻了如何更换第三方表盘呢? 前几代apple watch无法使用新表盘,想要实现更…

Applewatch6/ Applese价格曝光 苹果最新款手表参数区别对比

价格方面,Apple Watch Series 6GPS 版 3199 元起售,蜂窝网络版 3999 元起售。Apple Watch SE GPS 版 2199 元起售,蜂窝网络版 2499 元起售。 Apple Watch Series 6 新品活动 优惠空前机会不容错过 https://www.apple.com.cn/6 Apple Watch Se…

苹果手表计算机功能键,Apple Watch上的2个按键是这么玩的

原标题:Apple Watch上的2个按键是这么玩的 点评:苹果不说,但是你要知道的用法。 Apple Watch是苹果全新的产品,代表了苹果全新的设计理念,如此一来,操作和交互方式就与手机自然也有所不同。结果有的小伙伴把…

如何设置并将你的iWatch和iPhone配对

如何设置并将你的iWatch和iPhone配对 一旦你买到一个iWatch,拿回家并拆封,下面教你如何设置。 iWatch是这样一个装置,它被设计出来和你的iPhone一起使用。它可以说是一个iPhone配件,它们的关系非常亲密。这也是为什么设置iWatch感…

Apple Watch发售在即 苹果门店大变脸

本周五,苹果公司将正式发售人气如虹的智能手表Apple Watch,有意购买者将有机会尝试不同尺寸、表带款式和设定,并在4月24日正式铺货前先行预订。 苹果零售业务主管安吉拉阿伦茨(Angela Ahrendts)一直在和首席设计师乔尼…

android+wear+和iphone,Android Wear手表兼容iPhone:和苹果抢用户

原标题:Android Wear手表兼容iPhone:和苹果抢用户 北京时间9月1日早间消息,不愿使用Apple Watch智能手表的用户现在有了新选择:Android Wear设备。 Android Wear首席产品经理杰夫常(Jeff Chang)表示,Android Wear将通过…

如何更改Apple Watch 上的表盘?

我们在使用Apple Watch的时候,您可以为表盘选取不同的设计、调整颜色,以及添加复杂功能。您甚至可以将时间提前。那我们该如何操作呢?需要的朋友快和小编一起来看看吧! 如何在 Apple Watch 上切换表盘 1.在表盘上,从…

Apple Watch使用指南:所有Apple Watch图标和符号含义

Apple Watch是iPhone的缩影,具有“ n”个功能,苹果为它们制定了各种不同的图标和符号。这篇文章详细总结了所有Apple Watch图标和符号含义,还不了解的朋友快来学习一下吧! 雷电的力量 1、绿色闪电 我们大多数人都知道这个常见标…

watch的使用方法

1、 通过 watch 监听 data/computed 数据的变化。 2、通过 watch 监听 obj 数据的变化。(深度监听 deep) 因为修改是修改的对象里某个属性的值,监听不到user对象,所以要深度监听 网页打开 handler就执行一次 3.通过 watch 监听 data 数据的…

杰理-手表-AC701-watch-添加表盘

添加表盘 1.复制一个表盘,更改名称表盘6 2.修改表盘6路径下的copy_file.bat 3.修改表盘预览图资源名字 4.表盘文件夹重新命名 5.批处理添加表盘的资源打包处理,注意表盘资源的名字 6.添加背景图片,时分秒 保存编译 7.在模式界面…

苹果设计可变色Apple Watch表带,智能穿戴玩法多

苹果最新技术专利显示,苹果正在为 Apple Watch 设计一款可变色的表带,可以根据佩戴者所穿着的服装、所在的环境等自动改变颜色。据介绍,这款表带里的灯丝具有电致变色功能,可以通过施加不同的电压,来实现显示多种颜色或…

科研在线实用工具

————————————————————————————————————————— SCI文献查找: Sci-Hub: 将知识带给每个人Sci-Hub网站。免费获取学术期刊。免费下载来自ScienceDirect、IEEE、Wiley、Springer、Nature及其他的研究论文。https://sci-hub.s…

人工智能前沿——深度学习热门领域(确定选题及研究方向)

近年来,人工智能发展迅猛,其主要动力来自深度学习。深度学习的炙手可热源自于它对人工智能技术发展的整体促进和在广泛应用场景中的巨大应用价值。毫无疑问,深度学习仍旧是当今时代人工智能前沿技术的核心。 目录 一、计算机视觉(…

Sci-Hub和 Alexandra 的基本信息

作者: Alexandra 翻译:科大云炬 I decided to make a quick summary of facts about Sci-Hub and myself, because in our times you cannot fully trust articles published in media, Wikipedia pages. Well, they do present facts about Sci-Hub th…

用canvas绘画一些图形(图标)

最近在研究HTML5,发现其中的canvas用途很广。不但可以绘制图形,还可以制作图片线性渐变,而且还能渲染文字做成特效。 是 HTML5 新增的,一个可以使用脚本(通常为JavaScript)在其中绘制图像的 HTML 元素。它可以用来制作照片集或者制…

Pyecharts画区县地图

1.安装Pyecharts包 我用的是Win环境,首先打开命令行(winR),输入: pip install pyecharts实测时发现,下载时会出现断线和速度过慢的问题导致下载失败,所以建议通过清华镜像来进行下载 pip install -i https://pypi.tuna.tsinghua…