【论文研读】U-DiTs:在U型扩散Transformer中引入下采样Token,以更低计算成本超越DiT-XL/2

推荐理由

这篇论文提出了一种新的U型扩散Transformer模型(U-DiT),该模型通过对自注意力机制中的查询、键和值进行下采样,有效减少了计算冗余,同时提高了性能。论文中的研究不仅包含理论分析和实验验证,还展示了U-DiT模型在图像生成任务上的优越表现,能够以更低的计算成本超越现有的DiT模型。

速览

论文概述

本文研究了在潜在空间图像生成任务中使用U型扩散Transformer(U-DiT)模型。传统的Diffusion Transformers(DiTs)采用了各向同性的Transformer架构,在图像生成任务中表现出了强大的性能和可扩展性。然而,DiTs放弃了在许多先前工作中广泛应用的U-Net架构。本文首先通过简单的实验发现,U-Net架构的DiT(DiT-UNet)相比各向同性的DiT仅表现出微小的优势,表明U-Net架构中存在潜在的冗余。受U-Net骨干特征以低频成分为主这一发现的启发,本文提出了对自注意力机制中的查询-键-值元组进行下采样,从而在减少计算量的同时进一步提高了性能。基于下采样自注意力的方法,本文提出了一系列U型DiT模型(U-DiTs),并通过广泛的实验证明了U-DiT模型的卓越性能和可扩展性。

主要贡献

  1. 提出了U型扩散Transformer(U-DiT)模型:通过对自注意力机制中的查询-键-值元组进行下采样,本文设计了一系列U型扩散Transformer模型(U-DiTs),这些模型在保持高性能的同时显著减少了计算量。
  2. 实验验证了U-DiT模型的有效性:通过大量实验,本文证明了U-DiT模型在潜在空间图像生成任务中的卓越性能和可扩展性。特别是在与DiT及其改进版本相比时,U-DiT模型能够以更低的计算成本实现更好的性能。
  3. 深入分析了下采样自注意力的效果:本文通过对U-DiT模型中下采样自注意力机制的分析,揭示了其在减少计算冗余和提高模型性能方面的优势。此外,还通过实验验证了不同下采样方法和组件对U-DiT模型性能的影响。

论文及作者相关信息

  • 论文标题: U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

  • 作者姓名:Yuchuan Tian, Zhijun Tu, Hanting Chen, Jie Hu, Chao Xu

  • 作者单位:北京大学, 华为诺亚方舟实验室

  • 原文地址:https://arxiv.org/pdf/2405.02730

  • 项目地址:https://github.com/YuchuanTian/U-DiT

相关资讯报道

https://www.jiqizhixin.com/articles/2024-11-15-5

论文内容解读

背景与挑战

研究背景

随着深度学习技术的飞速发展,特别是在计算机视觉和图像生成领域,Transformer架构逐渐崭露头角。Transformer通过其独特的注意力机制,能够有效捕捉图像中的长距离空间依赖关系,从而在多种视觉任务中表现出卓越的性能。从图像分类、目标检测到图像分割和图像修复,Transformer都展现出了其强大的应用潜力。然而,在图像生成任务,尤其是潜在空间图像生成任务中,Transformer的应用仍面临诸多挑战。尽管近年来提出的Diffusion Transformers(DiTs)通过引入Transformer架构到扩散任务中,取得了令人瞩目的性能和可扩展性,但现有的DiTs及其改进版本大多摒弃了传统的U-Net架构,转而采用各向同性的标准Transformer架构。这种转变虽然带来了性能上的提升,但也引发了研究者们对U-Net架构在降噪方面独特优势的重新思考。因此,本研究致力于探索在潜在空间图像生成任务中,将Transformer架构与U-Net架构相结合的潜力,以期在保持高性能的同时,进一步挖掘U-Net在降噪方面的独特优势。

相关工作与挑战

在现有的相关研究中,Vision Transformers (ViTs) 自2015年提出以来,因其能够有效建立长距离空间依赖关系的注意力机制,在多种视觉任务中展现出了高度有效性。ViTs通过将输入图像划分为一系列图像块(patch tokens),并引入完整的Transformer架构,实现了对图像特征的全面捕捉。尽管ViTs通常采用各向同性架构,但后续工作也在不断探索金字塔式的层次结构以及改进Transformer中的前馈网络模块,以进一步提升性能。

另一方面,Diffusion Transformers (DiTs) 将Transformer架构引入扩散任务,特别是在潜在空间图像生成方面取得了显著成果。通过一系列Transformer块的链式连接,DiTs在图像空间和潜在空间生成任务上均展示出了出色的性能和可扩展性。然而,DiTs及其改进版本在潜在空间图像生成任务中放弃了广泛应用的U-Net架构,转而采用各向同性的架构。这一转变虽然简化了模型结构,但也引发了研究者们对U-Net架构在降噪方面优势的忽视。

U-Net架构在扩散模型中的应用历史悠久,特别是在潜在空间扩散中,U-Net通过逐步下采样和上采样特征图,有效过滤噪声,展现出在降噪方面的独特优势。然而,在最近的基于Transformer的潜在空间扩散工作中,U-Net架构并未得到广泛认可和应用。

此外,在Vision Transformers中,为了降低计算成本,研究者们提出了对键-值对进行下采样的方法。然而,这些方法通常保持查询的数量不变,下采样操作并不完全,且可能涉及显著的信息损失。因此,如何在保持模型性能的同时降低计算成本,成为当前研究面临的一大挑战。

针对上述挑战,本论文的研究者们在改进现有方法时,参考了U-Net架构在扩散模型中的优势以及Transformer中下采样技术的潜力。他们首先提出了一个朴素的U-Net风格的DiT(DiT-UNet),并通过实验发现,尽管U-Net的归纳偏置在DiT-UNet中并未得到充分利用,但下采样技术为改进DiT-UNet提供了可能。基于这一发现,研究者们提出了一种对查询-键-值元组同时进行下采样的自注意力机制,并将其应用于DiT-UNet中。这一创新不仅显著降低了计算成本,还提高了模型性能。进一步地,研究者们扩展了U-Net架构,提出了一系列U形扩散Transformer(U-DiTs),并通过大量实验验证了其卓越的性能和可扩展性。

方法介绍

U-DiT 方法概述

在这篇论文中,作者提出了一种名为 U-DiT(U-shaped Diffusion Transformers)的方法,旨在优化基于 Transformer 架构的扩散模型在潜在空间图像生成任务中的表现。该方法的核心在于将 U-Net 架构与 Transformer 架构相结合,并通过下采样 tokens 的方式优化自注意力机制,从而在减少计算量的同时提升模型性能。

核心关键词

  • U-Net 架构:一种常用于图像分割和图像生成任务的卷积神经网络架构,其特点是具有编码器-解码器结构,通过下采样和上采样操作逐步提取和恢复图像特征。
  • Transformer 架构:一种基于自注意力机制的神经网络架构,广泛应用于自然语言处理和计算机视觉任务中。
  • Tokens 下采样:在自注意力机制中,对 query、key 和 value 进行下采样操作,以减少计算量并优化模型性能。

方法亮点

  • 结合 U-Net 与 Transformer 架构:传统扩散模型通常采用 U-Net 架构,而近期的研究表明,基于 Transformer 的扩散模型(如 DiT)在性能和可扩展性方面表现出色。本文通过将两者结合,旨在充分利用 U-Net 的归纳偏置和 Transformer 的强大建模能力。
  • Tokens 下采样优化自注意力机制:通过下采样 tokens,可以在保持模型性能的同时显著减少计算量。这一优化策略基于 U-Net 骨干特征的低频主导特性,即高频成分主要包含噪声,而下采样操作可以自然地滤除这些高频噪声。

方法步骤

1. 构建 U-Net 风格的 DiT 模型(DiT-UNet)
  • 模型结构:DiT-UNet 模型采用 U-Net 架构,包括编码器和解码器两部分,每部分包含多个阶段。在每个阶段,编码器通过下采样操作逐步减少特征图的空间尺寸,同时增加特征维度;解码器则通过上采样操作逐步恢复特征图的空间尺寸。
  • Skip 连接:在每个阶段之间,通过 skip 连接将编码器的特征图与解码器的对应阶段特征图进行融合,以补充解码器在上采样过程中丢失的信息。
2. 对 DiT-UNet 模型进行 Tokens 下采样优化
  • 下采样操作:在下采样 tokens 的过程中,将输入特征图转换为四个空间尺寸减半的特征图,然后分别将这四个特征图映射为 query、key 和 value,并在每个下采样后的特征图上分别执行自注意力操作。
  • 特征融合:在自注意力操作完成后,将下采样后的 tokens 在空间上进行融合,以恢复原始数量的 tokens。整个过程中,特征维度保持不变。

设计初衷与有效性分析

  • 设计初衷:通过结合 U-Net 架构和 Transformer 架构,并利用下采样 tokens 优化自注意力机制,旨在构建一种既具有强大建模能力又具有良好可扩展性的扩散模型。
  • 有效性分析
    在这里插入图片描述
    图中是对比U-DiTs与DiTs及其改进效果。在40万步训练后,本文作者们绘制了FID-50K与去噪器GFLOPs(采用对数刻度)的关系图。U-DiTs展现出了优于其同类模型的性能。
    下采样 tokens 策略能够显著减少计算量,同时保持或提升模型性能。这是因为 U-Net 骨干特征的低频主导特性使得高频成分主要包含噪声,而下采样操作可以自然地滤除这些高频噪声。如图所示,U-DiTs 在与 DiTs 的对比中,展现出了更优的性能表现,进一步验证了该方法的有效性。
3. 扩展模型规模并引入其他优化策略
  • 扩展模型规模:在验证了下采样 tokens 策略的有效性后,作者进一步扩展了 U-DiT 模型的规模,并与更大规模的 DiT 模型进行了比较。
    在这里插入图片描述
    图中展示了不同规模下U-DiTs与DiTs的性能对比。随着训练步骤的增加,U-DiTs的表现始终优于DiTs。标记的大小定性地反映了模型的计算成本。
    这一对比结果进一步证明了 U-DiT 方法在扩展模型规模时的优越性能。
  • 模型配置
    在这里插入图片描述
    图中展示了U-DiTs架构在不同模型规模下的配置情况。其中,“通道”指的是第一层初始输出通道的数量,“编码器-解码器”则表示编码器与解码器模块中的变压器块数量。
    U-DiTs 架构的配置情况对于理解其性能扩展和计算成本具有重要意义。通过调整通道数量和编码器-解码器模块中的变压器块数量,U-DiTs 能够在不同规模下实现性能与计算成本的平衡。
  • 引入其他优化策略:除了下采样 tokens 策略外,作者还引入了余弦相似度注意力、RoPE2D 位置编码、深度可分离卷积 FFN 和重参数化等优化策略,以进一步提升 U-DiT 模型的性能。

性能对比与生成质量

  • 性能对比
    在这里插入图片描述
    上表展示了在ImageNet 512 × 512 512\times512 512×512图像生成任务上,U-DiTs与DiTs的性能对比。标有星号(∗)的实验是根据DiT的官方代码进行复现的。本文作者们比较了在标准训练超参数下,训练40万次迭代后的模型表现。
    在更高分辨率的图像生成任务上,U-DiTs 与 DiTs 的性能对比进一步验证了 U-DiT 方法的优越性。通过标准训练超参数下的复现实验,U-DiTs 在 512 t i m e s 512 512\\times512 512times512 图像生成任务上展现出了更优的性能。

在这里插入图片描述
图中是U-DiT-L在100万次迭代后生成的样本。令人惊叹的是,U-DiT仅需100万步训练便能达到如此逼真的视觉质量。建议在屏幕上观看以获得最佳效果。

上述图片展示了 U-DiT-L 模型在 100 万次迭代后生成的样本,其视觉质量令人惊叹。这一图像不仅为读者提供了对 U-DiT 方法生成能力的直观感受,还有助于理解该方法在实际应用中的潜在效果。此外,图片中提及的 U-DiT-L 模型与本文讨论的 U-DiT 方法在潜在空间图像生成任务中的处理对象相符,进一步增强了文章内容的连贯性和可读性。

在这里插入图片描述
上图展示了随着训练的进行,生成样本的质量逐步提升。本文作者们从在ImageNet 256 × 256 256\times256 256×256数据集上训练了不同迭代次数的U-DiT模型中采样。更多的训练确实能增强生成质量。最佳观赏效果需通过屏幕查看。

通过上图,可以直观地看到 U-DiT 方法在 ImageNet 数据集上随着训练迭代次数增加,生成样本质量的逐步提升。这一图像进一步验证了 U-DiT 方法的有效性,并为读者提供了对训练过程中生成质量变化的直观感受。

在这里插入图片描述
上表是U-DiT组件的消融研究。除了第3节中的玩具示例外,本文作者们还通过比较在相同浮点运算量(FLOPs)下的U-DiT与精简版DiT-UNet,进一步验证了下采样的有效性。结果显示,下采样可为DiT-UNet带来约18个FID的改进。在U-DiT架构基础上的进一步修改,每项可额外提升2至5个FID。

通过上表的消融研究,本文作者们进一步确认了下采样策略在U-DiT架构中的关键作用,以及该策略对模型性能的显著提升。这一发现不仅加深了对U-DiT方法的理解,也为未来在扩散模型优化方面的研究提供了有价值的参考。

实验与结果

实验设计

U-Net风格的DiT设计

为了验证U-Net架构在DiT中的潜力,作者首先设计了一个简单的U-Net风格的DiT(DiT-UNet)。该模型由编码器和解码器组成,每个编码器或解码器阶段包含相同数量的DiT块。在每个编码阶段,特征图通过2倍下采样,特征维度翻倍,同时利用跳跃连接将编码阶段的输出与解码阶段的输出进行融合,以补充解码过程中因下采样丢失的信息。作者选择了三个编码/解码阶段,以适应紧凑的潜在空间(对于256x256大小的图像,潜在空间为32x32)。

为了比较U-Net风格的DiT与原始DiT的性能,作者将DiT-UNet与计算成本相似的DiT-S/4进行了对比。训练迭代次数为400K,所有训练超参数保持不变。

在这里插入图片描述

上图展示了在U-Net风格DiT上的玩具实验。原始的DiT-UNet表现略优于各向同性DiT S / 4 S/4 S/4;但有趣的是,当对自注意力应用标记下采样时,DiT-UNet以更低的成本实现了更好的性能。

在这里插入图片描述
上图展示了从DiT到所提U-DiT的演进。左图(a):原始DiT,采用各向同性架构。中图(b):DiT-UNet,一种朴素的U-Net风格DiT。在玩具实验中,尝试将DiT与U-Net进行简单结合。右图©:所提U-DiT。本文作者提出对输入特征进行下采样以用于自注意力机制。该下采样操作能显著优化DiT-UNet,大幅削减计算量。

改进后的U-Net风格DiT

在初步实验中发现,U-Net风格的DiT相较于原始DiT仅有微弱的优势。为了进一步提高性能,作者提出了对注意力机制进行改进。他们观察到,在潜在空间扩散模型中,U-Net骨干网络提供的特征主要以低频分量为主。基于这一发现,作者提出了对查询(Query)、键(Key)和值(Value)三元组进行下采样的方法,以过滤掉高频噪声,同时减少计算量。

下采样操作将输入特征图转换为四个2倍下采样的特征图,然后将这些下采样后的特征图映射为Q、K、V进行自注意力计算。自注意力在每个下采样后的特征图内独立进行,之后将下采样后的特征图合并以恢复原始数量的特征图。这种方法不仅减少了计算量,还保留了原始特征图的维度。

实验结果

初步实验结果

在初步实验中,作者发现U-Net风格的DiT(DiT-UNet)相较于原始DiT(DiT-S/4)在性能上仅有微弱的优势。这表明,简单地将U-Net与DiT块结合并没有充分利用U-Net的归纳偏置。

改进后的U-Net风格DiT性能

通过引入下采样注意力机制,U-Net风格的DiT在性能上有了显著提升。尽管计算量显著减少,但FID(Fréchet Inception Distance)指标却有所降低,表明图像生成质量得到了提高。具体来说,下采样注意力机制在保持计算成本相近的情况下,使FID降低了约18个点。

更大规模的模型比较

为了验证所提出方法的有效性,作者将U-DiT模型扩展到更大规模,并与更大规模的DiT模型进行了比较。实验结果显示,U-DiT模型在性能上显著优于DiT模型。具体来说,U-DiT-B模型在计算成本仅为DiT-XL/2模型的1/6的情况下,仍然能够取得更好的FID指标。U-DiT-L模型甚至能够在FID上比DiT-XL/2模型低约10个点。

此外,作者还进行了条件生成和无条件生成的实验,结果显示U-DiT模型在分类器指导下的生成性能也优于DiT模型。在扩展训练步数到100万步后,U-DiT模型的性能仍然持续提升,表明其具有良好的可扩展性。

消融实验

作者还进行了消融实验,以评估不同组件对U-DiT模型性能的贡献。结果显示,下采样注意力机制对性能的提升最为显著,而其他改进(如余弦相似度注意力、RoPE2D位置编码、深度可分离卷积FFN等)也进一步提高了模型的性能。即使在没有这些额外改进的情况下,原始的U-DiT模型仍然能够在性能上超越DiT-XL/2模型。

在这里插入图片描述
图中展示的是ImageNet数据集内的一张图片,尺寸为256x256像素。

实验结果表明,作者提出的U-DiT模型在性能上显著优于现有的DiT模型,同时具有更好的可扩展性。通过下采样注意力机制和其他改进,U-DiT模型能够在保持较低计算成本的同时,实现高质量的图像生成。

#State Key Lab of General AI, School of Intelligence Science and Technology, Peking University #Huawei Noah’s Ark Lab #计算机视觉 #人工智能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493269.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清远榉之乡托养机构为你深度分析:特殊碳水化合物饮食对自闭症的作用

在探索自闭症干预方法的道路上,各种尝试不断涌现。其中,特殊碳水化合物饮食引起了不少家长的关注。那么,特殊碳水化合物饮食对自闭症究竟有怎样的作用呢?今天,清远榉之乡托养机构为你深度分析。 榉之乡大龄自闭症托养机…

Linux shell脚本用于常见图片png、jpg、jpeg、tiff格式批量转webp格式后,并添加文本水印

Linux Debian12基于ImageMagick图像处理工具编写shell脚本用于常见图片png、jpg、jpeg、tiff格式批量转webp并添加文本水印 在Linux系统中,使用ImageMagick可以图片格式转换,其中最常用的是通过命令行工具进行。 ImageMagick是一个非常强大的图像处理工…

【系统】Windows11更新解决办法,一键暂停

最近的windows更新整的我是措不及防,干啥都要关注一下更新的问题,有的时候还关不掉,我的强迫症就来了,非得关了你不可! 经过了九九八十一难的研究之后,终于找到了一个算是比较靠谱的暂停更新的方法&#x…

PostgreSQL技术内幕21:SysLogger日志收集器的工作原理

0.简介 在前面文章中介绍了事务模块用到的事务日志结构和其工作原理,本文将介绍日志的另一个部分,操作日志,主要去描述SysLogger日志的工作原理,流程以及其中关键的实现:日志轮转,刷盘性能问题等&#xff…

坑人 C# MySql.Data SDK

一:背景 1. 讲故事 为什么说这东西比较坑人呢?是因为最近一个月接到了两个dump,都反应程序卡死无响应,最后分析下来是因为线程饥饿导致,那什么原因导致的线程饥饿呢?进一步分析发现罪魁祸首是 MySql.Data,这就让人无语了,并且反馈都是升级了MySql.Data驱动引发,接下…

武汉市电子信息与通信工程职称公示了

2024年武汉市电子信息与通信工程专业职称公示了,本次公示通过人员有109人。 基本这已经是今年武汉市工程相关职称最后公示了,等待出证即可。 为什么有人好奇,一样的资料,都是业绩、论文等,有的人可以过,有的…

MySQL数据库——门诊管理系统数据库数据表

门诊系统数据库his 使用图形化工具或SQL语句在简明门诊管理系统数据库his中创建数据表,数据表结构见表2-3-9~表2-3-15所示。 表2-3-9 department(科室信息表) 字段名称 数据类型 长度 是否为空 说明 dep_ID int 否 科室…

基于Python3编写的Golang程序多平台交叉编译自动化脚本

import argparse import os import shutil import sys from shutil import copy2from loguru import loggerclass GoBuild:"""一个用于构建跨平台执行文件的类。初始化函数,设置构建的主文件、生成的执行文件名称以及目标平台。:param f: 需要构建的…

WIN10拖入文件到桌面,文件自动移动到左上角,导致桌面文件错乱

1.先打开文件管理器。 2.点击如下图所示的“选项”。 3.我用红笔标记的这个框,把勾去掉

springboot453工资信息管理系统(论文+源码)_kaic

工资信息管理系统的设计与实现 摘要 伴随着信息技术与互联网技术的不断发展,人们进到了一个新的信息化时代,传统管理技术性没法高效率、容易地管理信息内容。为了实现时代的发展必须,提升管理高效率,各种各样管理管理体系应时而生…

浅谈目前我开发的前端项目用到的设计模式

浅谈目前我开发的前端项目用到的设计模式 前言 设计模式很多,看到一个需求,项目,我们去开发的时候,肯定是做一个整体的设计进行开发,而在这次我项目中,我也做了一个整体的设计,为什么要设计&a…

批量DWG文件转dxf(CAD图转dxf)——c#插件实现

此插件可将指定文件夹及子文件夹下的dwg文件批量转为dxf文件。 (使用方法:命令行输入 “netload” 加载插件,然后输入“dwg2dxf”运行,选择文件夹即可。) 生成dxf在此新建的文件夹路径下,包含子文件夹内的…

Windows安全中心(病毒和威胁防护)的注册

文章目录 Windows安全中心(病毒和威胁防护)的注册1. 简介2. WSC注册初探3. WSC注册原理分析4. 关于AMPPL5. 参考 Windows安全中心(病毒和威胁防护)的注册 本文我们来分析一下Windows安全中心(Windows Security Center…

linux---多线程

线程的基本概念 定义:在Linux中,线程是进程内部的一个执行单元,是进程的一个实体,它是CPU调度和分派的基本单位。一个进程可以包含多个线程,这些线程共享进程的资源,如代码段、数据段、打开的文件、信号处理…

将4G太阳能无线监控的视频接入电子监控大屏,要考虑哪些方面?

随着科技的飞速发展,4G太阳能无线监控系统以其独特的优势在远程监控领域脱颖而出。这种系统结合了太阳能供电的环保特性和4G无线传输的便捷性,为各种环境尤其是无电或电网不稳定的地区提供了一种高效、可靠的视频监控解决方案。将这些视频流接入大屏显示…

有监督学习 vs 无监督学习:机器学习的两大支柱

有监督学习 vs 无监督学习:机器学习的两大支柱 有监督学习 vs 无监督学习:机器学习的两大支柱一、有无“老师”来指导二、解决的问题类型不同三、模型的输出不同 有监督学习 vs 无监督学习:机器学习的两大支柱 在机器学习的奇妙世界里&#…

SLURM资料

SLURM资料 Quick Start 基本概念 job step: 作业步,单个作业可以有多个作业步partition:分区,作业需要在特定分区中运行(理解为定义了队列,每个队列中包含不同节点)QOS:服务质量&a…

App自动化之dom结构和元素定位方式(包含滑动列表定位)

DOM结构 先来看几个名词和解释: dom: Document Object Model 文档对象模型 dom应用: 最早应用于html和js的交互。界面的结构化描述, 常见的格式为html、xml。核心元素为节点和属性 xpath: xml路径语言,用于xml 中的节点定位,X…

Vulhub:Redis[漏洞复现]

4-unacc(Redis未授权代码执行) 启动漏洞环境 docker-compose up -d 阅读vulhub给出的漏洞文档 cat README.zh-cn.md # Redis 4.x/5.x 主从复制导致的命令执行 Redis是著名的开源Key-Value数据库,其具备在沙箱中执行Lua脚本的能力。 Redis未授权访问在4.x/5.0.5以…

imx6ull qt多页面控制系统(正点原子imx系列驱动开发)

开题答辩完了也考完了四六级,赶紧来更新一下一个月前留下的坑吧 QAQ首先,因为毕业设计需要用到这些知识所以就从网络上找了一个智能车机系统,借鉴了一下大佬的项目思路,缝缝补补一个月终于完成了这一内容。 在这里先感谢从两位大佬…