扩散模型和Transformer梦幻联动!一举拿下新SOTA

format,png

作者丨羿阁 萧箫 

来源丨量子位

导读

 

“U-Net已死,Transformer成为扩散模型新SOTA了!”

就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。

cf41b787a290bcbf0e6735f48c2831f9.jpeg
MILA在读ML博士生Ethan Caballero

论文创意性地将Transformer与扩散模型融合,在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM,打破了U-Net统治扩散模型的“普遍认知”。

45e2c8d9e13de45a1319e52d1edf78c5.jpeg

网友给这对新组合命名也是脑洞大开:

All we need is U-Transformer希望他们没有错过Transffusion这个名字。

7ad6498252d3639271941b64e923c703.jpeg

要知道,这几年虽然Transformer占尽风头,但U-Net在扩散模型领域仍然一枝独秀——

无论是“前任王者”DALL·E2还是“新晋生成AI”Stable Diffusion,都没有使用Transformer作为图像生成架构。

2b193aa930d8590f6bdf1b85dfd77fd8.jpeg
英伟达AI科学家Jim Fan

如今新研究表明,U-Net并非不可用Transformer替代。

“U-Net并非不可替代”

论文提出的新架构名叫Diffusion Transformers(DiTs)。

架构保留了很多ViT的特性,其中整体架构如图左(包含多个DiT模块),具体的DiT模块组成如图右:

c40a6071399d14d81514ca8702482b7a.jpeg

更右边的两个灰色框的模块,则是DiT架构的“变体”。主要是探讨在条件输入下,不同的架构是否能对信息进行更好的处理,包括交叉注意力等。

最终结果表明,还是层归一化(Layer Normalization)更好用,这里最终选用了Adaptive Layer Normalization(自适应层归一化)的方法。

对于这篇论文研究的目的,作者表示希望探讨扩散模型中不同架构选择的重要性,以及也是给将来生成模型的评估做一个评判标准。

先说结果——作者认为,U-Net的归纳偏置(inductive bias),对于扩散模型性能提升不是必须的。

与之相反,他们能“轻松地”(readily)被Transformer的标准架构取代。

241360419a16cc46eb4322bc4ca427e5.jpeg

有网友发现,DALL·E和DALL·E2似乎都有用到Transformer。

这篇论文和它们的差异究竟在哪里?

事实上,DALL·E虽然是Transformer,但并非扩散模型,本质是基于VQVAE架构实现的;

1d59e4047f3d3dd5fde0af6f02d10bb3.jpeg

至于DALL·E2和Stable Diffusion,虽然都分别将Transformer用在了CLIP和文本编码器上,但关键的图像生成用的还是U-Net。

e6ea22950b2c2e6faad9705af2a21ecf.jpeg
经典U-Net架构

不过,DiT还不是一个文本生成图像模型——目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet风”,不过英伟达AI科学家Jim Fan认为,将它改造成想要的风格和加上文本生成功能,都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入,就能很快地将DiT改造成一个文生图模型:

Stable-DiT马上就要来了!

0370efa86805029eeaca96d3309fc3e3.jpeg

所以DiTs在生成效果和运算速率上,相比其他图像生成模型究竟如何?

在ImageNet基准上取得SOTA

为了验证DiTs的最终效果,研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说,他们尝试了四种不同模型深度和宽度的配置:DiT-S、DiT-B、DiT-L和DiT-XL,在此基础上又分别训练了3个潜块大小为8、4和2的模型,总共是12个模型。

0dd7915b49192df5dd137546c260d3c1.jpeg

从FID测量结果可以看出,就像其他领域一样,增加模型大小和减少输入标记数量可以大大提高DiT的性能。

FID是计算真实图像和生成图像的特征向量之间距离的一种度量,越小越好。

换句话说,较大的DiTs模型相对于较小的模型是计算效率高的,而且较大的模型比较小的模型需要更少的训练计算来达到给定的FID。

其中,Gflop最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小为2,当训练时间足够长时,DiT-XL/2就是里面的最佳模型。

f89668b38757a01232030e76e0eae8b3.jpeg

于是在接下来,研究人员就专注于DiT-XL/2,他们在ImageNet上训练了两个版本的DiT-XL/2,分辨率分别为256x256和512x512,步骤分别为7M和3M。

当使用无分类器指导时,DiT-XL/2比之前的扩散模型数据都要更好,取得SOTA效果:

在256x256分辨率下,DiT-XL/2将之前由LDM实现的最佳FID-50K从3.60降至了2.27。

并且与基线相比,DiTs模型本身的计算效率也很高:

DiT-XL/2的计算效率为119 Gflops,相比而言LDM-4是103 Gflops,ADM-U则是742 Gflops。

859f4cdf433d61d6bcdd4386a0eb4085.jpeg

同样,在512x512分辨率下,DiT-XL/2也将ADM-U之前获得的最佳FID 3.85降至了3.04。

不过此时ADM-U的计算效率是2813 Gflops,而XL/2只有525 Gflops。

8296a06034657c45722bdd630c440c4c.jpeg

研究作者

本篇论文作者为UC伯克利的William Peebles和纽约大学的谢赛宁。

bd7a08fbefbdc26779e90e2db081e0c5.jpeg

William Peebles,目前是UC伯克利的四年级博士生,本科毕业于麻省理工学院。研究方向是深度学习和人工智能,重点是深度生成模型。

284796d619afb26cde4b6790190f4a84.jpeg

之前曾在Meta、Adobe、英伟达实习过,这篇论文就是在Meta实习期间完成。谢赛宁,纽约大学计算机科学系助理教授,之前曾是Meta FAIR研究员,本科就读于上海交通大学ACM班,博士毕业于UC圣迭戈分校。谢赛宁读博士时曾在FAIR实习,期间与何恺明合作完成ResNeXt,是该论文的一作,之前何恺明一作论文MAE他也有参与。

64c7ce5d4f2738cddc80e9fdcd8d9911.jpeg

当然,对于这次Transformer的表现,也有研究者们表示“U-Net不服”。例如三星AI Lab科学家Alexia Jolicoeur-Martineau就表示:

U-Net仍然充满生机,我相信只需要经过细小调整,有人能将它做得比Transformer更好。

看来,图像生成领域很快又要掀起新的“较量风暴”了。

论文地址:
https://arxiv.org/abs/2212.09748v1

参考链接:
[1]https://twitter.com/ethanCaballero/status/1605621603135471616
[2]https://www.wpeebles.com/DiT [3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

format,png

33769f9483d1439a299659fddfe668ca.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28848.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

92K Star !AI 都完全不需要咱们人类了?

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 作者:Jina AI 创始人兼 CEO 肖涵博士 译者: 新智元编辑部 原文链接…

揭秘 Auto-GPT 喧嚣背后的残酷真相!

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 本文来自 Jina 官方投稿,作者为 Jina AI 创始人兼 CEO 肖涵博士,如…

通过ChatGPT使用Mermaid.js生成时间序列图、组织结构图等

1、用mermaid.js 生成京东网站改版时间序列图 以下是使用Mermaid.js生成的京东网站改版时间序列图: gantttitle 京东网站改版时间序列图dateFormat YYYY-MM-DDsection 基础功能改版登录注册界面 :done, 2018-01-15, 10d购物车页面优化 :done, 2018-02-10, 10d商…

淘汰ChatGPT的Auto-GPT是炒作?自己跑代码,不需要人类,GitHub已破5万星

视学算法报道 编辑:编辑部 【导读】Auto-GPT究竟是一个开创性的项目,还是一个被过度炒作的AI实验?这篇文章为我们揭开了喧嚣背后的真相,并揭示了Auto-GPT不适合实际应用的局限性。 这两天,Auto-GPT——一款让最强语言…

AIPRM for ChatGPT 提示词模板扩展工具实践

(1)基本介绍 AIPRM for ChatGPT是一个Chrome浏览器扩展程序,基于Chromium内核开发的浏览器都可以使用该扩展,比如微软的Edge浏览器等。 在AIPRM的帮助下,我们可以在ChatGPT中一键使用各种专门为网站SEO、SaaS、营销、…

惊!掌握通义千问的关键,从这些必知内容开始!

今年快过半了,要说顶流话题还得是ChatGPT,相关话题的热度居高不下,而其从GPT-3.5到GPT-4的升级,也让我们深刻了解了什么叫一代版本一代神,从GPT-3.5到GPT-4,真的就是一个跨阶级式的升级。 技术内涵 ChatGPT…

讯飞星火大模型申请及测试:诚意满满

“ 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 最近国产大模型跟下饺子似,隔几天就发布一个。厂家发布得起劲&#xf…

拍摄电话?窃听邮件?了解社会工程学攻击和你可能受到的风险

数据来源 本文仅用于信息安全的学习,请遵守相关法律法规,严禁用于非法途径。若观众因此作出任何危害网络安全的行为,后果自负,与本人无关。 社会工程学 社会工程学-渗透测试 社会工程学作用 亦思社会工程学 你注册过哪些网站&…

文心千帆为你而来

1. 前言 3月16号百度率先发布了国内第一个人工智能大语言模型—文心一言。文心一言的发布在业界引起了不小的震动。而文心一言的企业服务则由文心千帆大模型平台提供。文心千帆大模型平台是百度智能云打造出来的一站式大模型开发与应用平台,提供包括文心一言在内的…

第二弹进阶吴恩达 ChatGPT Prompt 技巧

第一弹笔记在这里: 总结吴恩达 ChatGPT Prompt 免费课程 今天分享第二弹,进阶篇。 第一点,任务序列化。 通常看完一篇长文,脑子里往往充满无数疑问。急切想知道所有答案,必须列一个问题清单。对话式问法,对…

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

Python与ChatGPT

Python的用途非常广泛,很多应用场景都可以使用 python 来满足自己的需求,比如自己平常使用 Python 来做网络应用后端开发、做批量处理小工具、做测试软件等,而目前非常热门的 ChatGPT 也与 python 有很大的关系。 据了解,在ChatG…

IOS越狱---checkra1n windows系统越狱

本篇教程适用小白初次越狱,无高阶操作,大佬请止步,本篇教程可能没有任何能学习的地方,以下问题如有不清楚的地方欢迎加微信 vaintech讨论交流 首先介绍所需要的工具 一支U盘(2g以上)一台电脑要被越狱的手…

【iOS逆向】某App越狱检测

1.目标 此篇文本为入门文章,大家莫抱过多期望。此文章的目的是教大家如何从UI入手,去定位自己想要的东西。 2.操作环境 mac系统 frida-ios-dump:砸壳 已越狱iOS设备:脱壳及frida调试 IDA Pro:静态分析 3.流程 …

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人 介绍 Poe 是知名问答社区 Quora 推出的 AI 平台——开放探索平台 (Platform for Open Exploration, Poe)。Poe 集成了多个基于大型语言模型的聊天机器人,包括 ChatGPT,以及 Sage、Claude、Dr…

越狱手机如何让APP绕过越狱检测

当你越狱之后,某些APP检测到你越狱后,一些功能就会被禁用,比如微信、支付宝的指纹支付,下面这款插件就会帮你绕过越狱检测,正常使用APP里面的所有功能。 文章目录 1. 环境2. Cydia简介3. 过程(Liberty为例)3.1. 添加添…

完美越狱来了,unc0ver 更新 7.0.0 版本,但是别着急冲

说起完美越狱, 仿佛是很久的事情了。 时隔多年,完美越狱终于来了。 Fugu14 完美越狱发布,unc0ver 7.0.0 版本发布。 完美越狱 先说说事情起因、经过、结果。 9月01日,开发者 Linus Henze 演示了 iOS 14.5.1 完美越狱的视频。…

iOS“远程越狱”间谍软件Pegasus技术分析

关注我的博客,访问更多内容! 背景:通过研究发现,用户点击短信内的链接后,攻击者就会利用3个0day漏洞,对用户手机“远程越狱”,然后安装间谍软件,随后就能对设备进行全面控制&#x…

20、Theos越狱调试Wallet

前面的总结中使用砸壳重签后的App进行调试,本篇在越狱环境下不重签App进行调试,但是还是需要砸壳获取Headers. 一、Cycript 1.1 在越狱环境中使用Cycript 在越狱环境上,安装Cycript插件.需要先安装adv-cmds插件,因为被Cycript插件所依赖、在Cydia中,安装Cycript 在设备中找到…

用上这几个开源管理系统做项目,领导看了直呼专业!

大家好,我是宝哥! SCUI Admin 中后台前端解决方案 SCUI 是一个中后台前端解决方案,基于 VUE3和 elementPlus 实现。使用最新的前端技术栈,提供各类实用的组件方便在业务开发时的调用,并且持续性的提供丰富的业务模板帮…