【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文

VAE

DDPM 

分类

内容

论文题目

Scalable Diffusion Models with Transformers

作者

William Peebles (UC Berkeley), Saining Xie (New York University)

发表年份

2023

摘要

介绍了一类新的扩散模型,这些模型利用Transformer架构,专注于图像生成的潜在扩散模型。这些模型用在latent patches上操作的Transformer替换了常见的U-Net骨架。通过前向传递复杂度分析了可扩展性,显示出具有更高Gflops的模型一致地实现了更低的FID分数。最大的模型在类条件ImageNet生成任务上设定了新的基准。

引言

讨论了跨各种领域(包括NLP和视觉)由Transformer驱动的机器学习的最新进展。强调了在传统使用U-Net架构的扩散模型中,Transformer的潜力。引言为探索基于变压器的扩散模型(DiTs)的可扩展性和有效性奠定了基础。

主要内容

提出了作为扩散模型的可扩展和有效架构的Diffusion Transformers(DiTs),强调了它们的设计、训练和在图像生成任务上的性能。详细讨论了从U-Net到Transformer的过渡,为适应扩散模型而做出的设计选择,以及引入新的图像质量基准。通过改变模型大小和patches大小来探讨DiTs的可扩展性,展示了在FID分数上的显著改进。

实验

通过在256x256和512x512分辨率的类条件ImageNet生成任务上评估DiTs的性能,将它们与先前的最先进模型进行比较。证明了DiTs在图像质量上的优越性,如通过更低的FID分数所证明。还探索了不同条件策略和模型缩放对性能的影响,进一步验证了DiTs在生成高质量图像方面的可扩展性和效率。

结论

DiTs在基于扩散的图像生成任务中超越了现有的U-Net模型,受益于Transformer架构的可扩展性和效率。提出了进一步扩展DiTs和探索它们在其他生成任务中应用的潜在未来方向,如文本到图像模型。强调了在类条件ImageNet基准上取得的有希望的结果,作为DiTs潜力的证据。

阅读心得

这篇论文是Sora的基础,作者William Peebles同时也是Sora的负责人。

该论文提出了一种综合VAE+ViT+DDPM的基础架构,主要是在latent patches(可以去看VAE)空间进行操作,这样做的好处是首先计算cost会减小很多,例如如果在原始的图片上操作,例如256x256,那在latent patches空间就可以是32x32. Latent patches是指训练一个图像编码器,我们首先可以把原始图像编码为embeding, 也就是E(x), 编码后的空间就是论文中所说的latent patches空间.

另外,论文中对不同结构的DiT Block的变体进行了对比实验,如上图所示. DiT是指 Diffusion Transformer, 类似ViT(Vision Transformer). 实验证明采用adaLN-Zero的变体结构效果最好. 具体的各个变体的说明可以看论文.

亮点:

  • 使用Transformer代替U-net。

  • DiT的 adaLN-zero 这种结构

注:adaLN-zero 是 DiT (Diffusion Image Transformer) 中的一种技术,它是一种自适应层归一化(Adaptive Layer Normalization)方法。在图像生成任务中,归一化是一种重要的技术,用于帮助模型训练和稳定性。adaLN-zero 特别设计用于扩散模型,通过动态调整归一化参数以适应不同的生成阶段和条件,从而提高生成图像的质量和一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/275880.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣热题100_矩阵_73_矩阵置零

文章目录 题目链接解题思路解题代码 题目链接 73.矩阵置零 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出&…

如何在群晖用Docker本地搭建Vocechat聊天服务并无公网ip远程交流协作

文章目录 1. 拉取Vocechat2. 运行Vocechat3. 本地局域网访问4. 群晖安装Cpolar5. 配置公网地址6. 公网访问小结 7. 固定公网地址 如何拥有自己的一个聊天软件服务? 本例介绍一个自己本地即可搭建的聊天工具,不仅轻量,占用小,且功能也停强大,它就是Vocechat. Vocechat是一套支持…

Clion配置远程服务器并在上面开发

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、远程服务器是什么?二、开始配置1.创建一个C项目2.添加远程服务器 总结 前言 作为开发C最强大IDE之一,Clion确实相当好用了&#xf…

新 树莓派4B 温湿度监测 基于debian12的树莓派OS

前言 本文旨在完成通过外接温湿度传感器至树莓派使得树莓派不断记录并存储温湿度数据 这个领域有很多文章,但是部分文章已经缺乏了时效性,在最新系统不适用,本文目前适用 硬件 硬件连接 温湿度传感器常选用DHT11和DHT22,淘宝…

解析找不到msvcr120.dll无法继续执行此代码的多种修复方法

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“msvcr120.dll丢失”。这个错误通常会导致某些程序无法正常运行。为了解决这个问题,本文将介绍5种修复msvcr120.dll丢失的方法。 一,msvcr120.dll丢失会出现哪些问题…

UE5.2 SmartObject使用实践

SmartObject是UE5新出的一项针对AI的功能,可为开发者提供如公园长椅、货摊等交互对象的统一外观封装,如UE的CitySample(黑客帝国Demo)中就运用到了SmartObject。 但SmartObject实践起来较为繁琐,主要依赖于AI及行为树…

@EnableWebMvc介绍和使用详细demo

EnableWebMvc是什么 EnableWebMvc 是 Spring MVC 中的一个注解,它用于启用 Spring MVC 框架的基本功能,以便你可以使用 Spring MVC 提供的特性来处理 Web 请求。 通常情况下,在基于 Spring Boot 的应用中,并不需要显式地使用 Ena…

Docker进阶:深入了解 Dockerfile

Docker进阶:深入了解 Dockerfile 一、Dockerfile 概述二、Dockerfile 优点三、Dockerfile 编写规则四、Dockerfile 中常用的指令1、FROM2、LABEL3、RUN4、CMD5、ENTRYPOINT6、COPY7、ADD8、WORKDIR9、 ENV10、EXPOSE11、VOLUME12、USER13、注释14、ONBUILD 命令15、…

ssm蛋糕甜品商城系统(程序+文档+数据库)

** 🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅** 一、研究背景…

电玩城游戏大厅计时软件怎么用,佳易王计时计费管理系统软件定时语音提醒操作教程

电玩城游戏大厅计时软件怎么用,佳易王计时计费管理系统软件定时语音提醒操作教程 一、前言 以下软件操作教程以 佳易王电玩计时计费软件V18.0为例 说明 软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 1、软件计时计费,只需点击开…

26 网络中的网络 NiN 【李沐动手学深度学习v2课程笔记】

LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 或者,可以想象在这个过程的早期使用全连…

电脑远程桌面选项变成灰色没办法勾选怎么办?

有些人在使用Windows系统自带的远程桌面工具时,会发现系统属性远程桌面选项卡中勾选启用“允许远程连接到此计算机”。 导致此问题出现的原因主要是由于组策略或者注册表设置错误造成的。 修复远程桌面选项变灰的两种方法! 方法一:设置本地组…

Java初阶数据结构队列的实现

1.队列的概念 1.队列就是相当于排队打饭 2.在排队的时候就有一个队头一个队尾。 3.从队尾进对头出 4.所以他的特点就是先进先出 所以我们可以用链表来实现 单链表实现要队尾进队头出{要有last 尾插头删} 双向链表实现效率高:不管从哪个地方当作队列都是可以的&…

ElasticSearch深度分页问题如何解决

文章目录 概述解决方法深度分页方式from size深度分页之scrollsearch_after 三种分页方式比较 概述 Elasticsearch 的深度分页问题是指在大数据集上进行大量分页查询时可能导致的性能下降和资源消耗增加的情况。这种情况通常发生在需要访问大量数据的情形下,比如用…

算法空间复杂度计算

目录 空间复杂度定义 影响空间复杂度的因素 算法在运行过程中临时占用的存储空间讲解 例子 斐波那契数列递归算法的性能分析 二分法(递归实现)的性能分析 空间复杂度定义 空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大…

PHP序列化基础知识储备

一、序列化与反序列化 1、概念 PHP中的序列化是指将复杂的数据类型转换为可存储或可传输的字符串,而反序列化则是将这些字符串重新转换回原来的数据类型。 序列化通常使用 serialize() 函数完成,它可以将数组、对象、字符串等复杂数据类型压缩到一个字…

uniapp发行H5获取当前页面query

阅读uni的文档大致可得通过 onLoad与 onShow()的形参都能获取页面传递的参数,例如在开发时鼠标移动到方法上可以看到此方法的简短介绍 实际这里说的是打开当前页面的参数,在小程序端的时候测试并无问题,但是发行到H5时首页加载会造成参数获取…

vscode setting.json 全局设置 工作区设置 位置 优先级

vscode中setting.json有两种配置权限 一、全局配置:setting.json文件位于C:\Users\Administrator\AppData\Roaming\Code\User\settings.json 二、工作区配置:setting.json文件位于工作区的.vscode\settings.json 当两种配置同时存在时,工作区…

什么是测试自动化平台?为什么需要测试自动化平台?如何选择平台

什么是测试自动化平台? 测试自动化平台是一种软件工具或框架,可帮助软件开发团队实现测试流程的自动化。它集成了多种功能和工具,使测试人员能够更高效地进行测试计划、用例设计、测试执行和结果分析。 为什么需要测试自动化平台&#xff1f…

qiankun:vite/webpack项目配置

相关博文: https://juejin.cn/post/7216536069285429285?searchId202403091501088BACFF113F980BA3B5F3 https://www.bilibili.com/video/BV12T411q7dq/?spm_id_from333.337.search-card.all.click qiankun结构: 主应用base:vue3historyv…