dit block部分

我首先会仔细阅读用户指令,明确用户的需求是基于文章的前十页内容,对3.2节“Diffusion Transformer Design Space”中的“DiT block design”部分进行原文翻译,并且在翻译完成后进行总结。为了完成这个任务,我需要先定位到文章的3.2节,并且找到“DiT block design”这个子部分。

接下来,我会开始阅读“DiT block design”部分的内容。在阅读过程中,我会注意到这部分主要介绍了扩散变换器(DiT)块的不同设计变体,包括上下文条件化、交叉注意力块、自适应层归一化(adaLN)块和adaLN-Zero块。对于每一种设计变体,我都会关注其核心思想和实现方式,例如,上下文条件化是将条件信息作为额外的标记添加到输入序列中,交叉注意力块使用了多头交叉注意力机制,adaLN块使用了自适应层归一化,adaLN-Zero块则采用了特殊的初始化策略。

在理解了每种DiT块设计的基础上,我会开始着手进行原文翻译。我会力求翻译准确,忠实于原文的意思,并且保持语言的流畅和自然。在翻译过程中,我会注意一些专业术语的准确性,例如“cross-attention”、“adaptive layer norm”等,确保这些术语在译文中能够准确地传达原文的含义。同时,我也会注意句子的结构和语法,使得译文易于理解。

翻译完成之后,我会开始进行总结。总结的目标是提炼出“DiT block design”部分的核心内容,并以简洁明了的方式呈现出来。我会回顾之前阅读时标记的关键信息,例如不同DiT块的特点、优缺点以及实验结果。基于这些信息,我会组织总结的内容,首先概括介绍DiT块设计的整体目标,然后分别总结各种DiT块设计的特点和实验表现,并最终点明实验结果所揭示的结论,即adaLN-Zero块的优势。

在总结的过程中,我会注意突出重点,避免冗余信息,力求用最少的文字概括最多的内容。同时,我也会注意总结的语言表达,使其与原文的风格保持一致,并且符合学术写作的规范。最后,我会检查总结的内容是否完整准确地反映了原文的核心思想,并且确保总结与翻译部分相互呼应,共同完成用户指令的要求。

原文翻译

3.2. Diffusion Transformer Design Space中的DiT block design部分

我们引入了扩散变换器(DiTs),这是一种用于扩散模型的新型架构。我们的目标是尽可能忠实于标准的Transformer架构,以保留其扩展性。由于我们的重点是训练图像的扩散模型(特别是图像的空间表示),DiT基于Vision Transformer(ViT)架构,该架构对图像块序列进行操作[10]。DiT保留了许多ViT的最佳实践。图3展示了完整的DiT架构概览。在本节中,我们描述了DiT的前向传播及其设计空间的组件。

Patchify
DiT的输入是一个空间表示z(对于256×256×3的图像,z的形状为32×32×4)。DiT的第一层是“patchify”,它通过线性嵌入输入中的每个块,将空间输入转换为长度为T的令牌序列,每个令牌的维度为d。在patchify之后,我们对所有输入令牌应用标准的ViT基于频率的位置嵌入(正弦-余弦版本)。由patchify创建的令牌数量T由块大小超参数p决定。如图4所示,将p减半会使T增加四倍,从而至少使总的Transformer Gflops增加四倍。尽管对Gflops有显著影响,但改变p对下游参数数量没有实质性影响。

我们向DiT设计空间中添加了p=2,4,8。

DiT block design
在patchify之后,输入令牌由一系列Transformer块处理。除了噪声图像输入外,扩散模型有时还处理额外的条件信息,如噪声时间步t、类别标签c、自然语言等。我们探索了四种处理条件信息的Transformer块变体。这些设计对标准ViT块设计进行了小的但重要的修改。所有块的设计如图3所示。

上下文条件化
我们简单地将t和c的向量嵌入作为两个额外的令牌附加到输入序列中,就像ViTs中的cls令牌一样对待它们。这允许我们使用标准的ViT块而不做任何修改。在最后一个块之后,我们从序列中移除条件令牌。这种方法对模型的Gflops几乎没有新的增加。

交叉注意力块
我们将t和c的嵌入连接成一个长度为二的序列,与图像令牌序列分开。Transformer块被修改为在多头自注意力块之后包含一个额外的多头交叉注意力层,类似于Vaswani等人[60]的原始设计,也类似于LDM用于类别标签条件化的设计。交叉注意力对模型的Gflops增加最多,大约增加15%的开销。

自适应层归一化(adaLN)块
鉴于自适应归一化层[40]在GANs[2,28]和带有U-Net骨干的扩散模型[9]中的广泛应用,我们探索用自适应层归一化(adaLN)替换Transformer块中的标准层归一化层。我们不是直接学习维度方向的缩放和偏移参数γ和β,而是从t和c的嵌入向量的和中回归它们。在我们探索的三种块设计中,adaLN增加的Gflops最少,因此是最计算高效的。它也是唯一一种将相同函数应用于所有令牌的条件机制。

adaLN-Zero块
在ResNets上的先前研究发现,将每个残差块初始化为恒等函数是有益的。例如,Goyal等人发现,在监督学习环境中,零初始化每个块中的最终批量归一化比例因子可以加速大规模训练[13]。扩散U-Net模型使用类似的初始化策略,在任何残差连接之前的每个块中零初始化最终的卷积层。我们探索了一种adaLN DiT块的修改版本,同样如此。除了回归γ和β外,我们还回归维度方向的缩放参数α,这些参数在DiT块内的任何残差连接之前立即应用。

表1. DiT模型的详细信息。我们遵循ViT[10]模型配置的小型(S)、基础(B)和大型(L)变体;我们还引入了XLarge(XL)配置作为最大的模型。

模型层数 N隐藏大小 d头数Gflops(I=32, p=4)
DiT-S1238461.4
DiT-B12768125.6
DiT-L2410241619.7
DiT-XL2811521629.1

我们初始化MLP以对所有α输出零向量;这将完整的DiT块初始化为恒等函数。与普通的adaLN块一样,adaLN-Zero对模型的Gflops增加可以忽略不计。

我们将上下文条件化、交叉注意力、自适应层归一化和adaLN-Zero块纳入DiT设计空间。

模型大小
我们应用一系列N个DiT块,每个块在隐藏维度大小d上操作。遵循ViT,我们使用联合缩放N、d和注意力头的标准Transformer配置[10,63]。具体来说,我们使用四个配置:DiT-S、DiT-B、DiT-L和DiT-XL。它们涵盖了广泛模型大小和flop分配,从0.3到118.6 Gflops,使我们能够评估扩展性能。表1给出了配置的详细信息。

我们向DiT设计空间中添加了B、S、L和XL配置。

Transformer解码器
在最后一个DiT块之后,我们需要将图像令牌序列解码为输出噪声预测和输出对角协方差预测。这两个输出的形状等于原始空间输入。我们使用标准的线性解码器来完成此操作;我们应用最终的层归一化(如果使用adaLN则为自适应)并线性解码每个令牌为pxpx2C张量,其中C是DiT的空间输入通道数。最后,我们将解码后的令牌重新排列成其原始空间布局,以获得预测的噪声和协方差。

我们探索的完整DiT设计空间包括块大小、Transformer块架构和模型大小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32256.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2025前端高频面试题——系列一之MVC和MVVM】

前端高频面试题——系列一之MVC和MVVM 前言一、MVC的基本逻辑二、MVVM的基本逻辑总结 提示:片尾总结了要点,硬背的话直接跳到最后 前言 相信持续关注我文章的小伙伴知道我之前就MVC和MVVM做过较为详细的讲解,但是我发现,他依旧是…

axure11安装教程包含下载、安装、汉化、授权(附安装包)图文详细教程

文章目录 前言一、axure11安装包下载二、axure11安装教程1.启动安装程序2.安装向导界面3.安装协议协议页面2.选择安装位置3.开始安装4.完成安装 三、axure11汉化教程1.axure11汉化包2.axure11汉化设置 四、axure11授权教程1.打开axure112.设置使用方式3.输入许可证号4.axure11安…

Ubuntu 22.04使用pigz多线程快速解压/压缩文件

最近搞项目,资料太大,解压时间太久,于是想办法解决。 开贴记录。 1.安装pigz sudo apt install pigz 2.解压资料 解压命令为 tar --use-compress-programpigz -xvpf ***.tar.gz 将最后的部分***.tar.gz换成你自己的文件即可 例如 ti…

版本控制器Git(3)

文章目录 前言一、分支管理策略二、Bug分支管理遇到Bug时的处理方法使用 git stash 暂存工作区内容创建并切换到Bug修复分支恢复之前的工作 三、临时分支的删除总结 前言 我们在上篇讲到了分支,现在我们就着这个继续来讲解! 一、分支管理策略 master分支…

pytest+allure+jenkins

本地运行参考:pytestallure 入门-CSDN博客 jenkins运行如下: 安装插件:allure 配置allure安装目录 配置pytest、allure 环境变量 配置流水线 进行build,结果如下 ,点击allure report 查看结果

AI术语整理(持续更新)

在AI相关的学习和使用中,经常会被各种术语混淆,搞清楚术语本来的含义是关键,本文收集整理了部分AI相关术语,会持续更新。 基础概念 人工智能(Artificial Intelligence,AI):一种模…

【蓝桥杯单片机】第十一届省赛

一、真题 二、创建工程 1.在C盘以外的盘新建文件夹,并在文件夹里面创建两个文件夹Driver 和Project 2.打开keil软件,在新建工程并选择刚刚建好的project文件夹,以准考证号命名 3.选择对应的芯片型号 4.选择否,即不创建启动文件 …

GMT绘图笔记:用深度作为表面高度(Z 值),用其他物理量(泊松比)给表面着色

之前用GMT绘制莫霍面的三维示意图是用的莫霍面的深度作为表面着色。 GMT绘图笔记:绘制堆叠三维图_gmt画图-CSDN博客 如果要换成其他的物理场,比如泊松比,则需要使用以下的代码 gmt begin BS_figures2 png,pdf E600 # 绘制底图 # Chistrong…

docker搭建elk

文章目录 1.拉取镜像2.ES配置3.logstash配置4.kibana配置5.创建自定义网络6.docker-compose.yml文件7.springboot对接Logstash1.创建一个springboot项目引入主要依赖2.application.yml配置3.resources目录中新增logback-spring.xml4.启动项目,搞点日志5.进入kibana控…

golang算法快慢指针

876. 链表的中间结点 给你单链表的头结点 head ,请你找出并返回链表的中间结点。 如果有两个中间结点,则返回第二个中间结点。 示例 1: 输入:head [1,2,3,4,5] 输出:[3,4,5] 解释:链表只有一个中间结…

瑞云渲染专访奥斯卡提名制片人兼女性动画人协会副主席Jinko Gotoh!

都说CG行业男多女少,女同胞都是珍稀资源,但艺术领域怎么可以没有女性视角呢?本期推文我们邀请到了动画行业资深大佬后藤纯子Jinko Gotoh,作为奥斯卡提名制片人兼女性动画人协会副主席,后藤纯子始终以多元文化倡导者与创…

道路运输安全员考试:备考中的心理调适与策略

备考道路运输安全员考试,心理调适同样重要。考试压力往往会影响考生的学习效率和考试发挥。​ 首先,要正确认识考试压力。适度的压力可以激发学习动力,但过度的压力则会适得其反。当感到压力过大时,要学会自我调节。可以通过运动…

卡尔曼滤波算法从理论到实践:在STM32中的嵌入式实现

摘要:卡尔曼滤波(Kalman Filter)是传感器数据融合领域的经典算法,在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波,并给出基于STM32硬件的完整工程案例…

【Linux】:线程池

朋友们、伙计们,我们又见面了,本期来给大家带来线程池相关的知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精通 数据结构…

SpringMVC (一)基础

目录 SpringMVC 一 简单使用 1 新建模块选择指定参数 2 创建实现类 3 将项目启动 4 运行结果:在浏览器当中响应执行 二 RequestMapping 三 请求限定 SpringMVC SpringMVC是Spring的web模块,用来开发Web应用,SpringMVC应用最终作为B/…

tomcat应用的作用以及安装,以及tomcat软件的开机自启动。

一.tomcat介绍 1.作用 tomcat是一款用来部署网站服务器的一款软件。 动态网站主流语言: PHP, lamp/lnmp平台 Java语言,运行在tomcat平台。【只要这个网站或者软件是Java语言写的,我们都可以在tomcat平台上去运行这个java程序。】 网站是…

CSDN博客:Markdown编辑语法教程总结教程(下)

❤个人主页:折枝寄北的博客 Markdown编辑语法教程总结 前言1. LaTex数学公式2. 插入不同类别的图2.1 插入甘特图2.2 插入UML图2.3 插入Mermaid流程图2.4 插入Flowchart流程图2.5 插入classDiagram类图 3. CSDN快捷键4. 字体相关设置4.1 字体样式改变4.2 字体大小改变…

AI模型的构建过程是怎样的(下)

你好,我是舒旻。 上节课,我们讲了一个模型构建的前 2 个环节,模型设计和特征工程。今天,我们继续来讲模型构建的其他 3 个环节,说说模型训练、模型验证和模型融合中,算法工程师的具体工作内容,以及 AI 产品经理需要掌握的重点。 模型训练 模型训练是通过不断训练、验证…

K邻近算法

K邻近算法 1 算法介绍 1.1 什么是K-NN K-NN(K Near Neighbor):k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。K-NN算法属于监督学习方式的分类算法,即计算某给点到每个点的距离作为相似度的反馈。简单…

晋升系列4:学习方法

每一个成功的人,都是从底层开始打怪,不断的总结经验,一步一步打上来的。在这个过程中需要坚持、总结方法论。 对一件事情长久坚持的人其实比较少,在坚持的人中,不断的总结优化的更少,所以最终达到高级别的…