《Diffusion Models Without Attention》CVPR2024

摘要

这篇论文探讨了在高保真图像生成领域,去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)的重要性。尽管DDPMs在捕捉复杂视觉分布方面表现出色,但在高分辨率图像生成上面临显著的计算挑战。现有的方法,如在U-Net和Transformer架构中采用patchifying(分块处理),虽然加快了处理速度,但牺牲了表示能力。为了解决这一问题,论文提出了一种新的架构——Diffusion State Space Model(DIFFUSSM),它用一个更可扩展的状态空间模型骨干网络替代了注意力机制。这种方法在不进行全局压缩的情况下有效处理更高分辨率的图像,从而在整个扩散过程中保留了详细的图像表示。论文还强调了在扩散训练中对FLOP(浮点运算次数)高效架构的关注,并在ImageNet和LSUN数据集上的评估表明,DiffuSSM在FID(Fréchet Inception Distance)和Inception Score指标上与或超过现有的带有注意力模块的扩散模型,同时显著减少了总FLOP的使用。

概述

拟解决的问题:论文旨在解决DDPMs在高分辨率图像生成中的计算挑战,特别是在不牺牲图像细节和结构完整性的情况下,减少对高成本注意力机制的依赖。

创新之处:

  • 架构创新:提出了DIFFUSSM,这是一种无需注意力机制的扩散架构,它使用状态空间模型(SSM)骨干网络来处理长序列,避免了传统注意力机制中的二次复杂度问题。
  • 效率提升:通过使用SSM和hourglass(沙漏)架构,DIFFUSSM在保持图像细节的同时,提高了计算效率。
  • 性能提升:在高分辨率图像生成任务中,DiffuSSM在FID和Inception Score等指标上达到了与或超过现有模型的性能,同时显著减少了计算资源的使用。

方法

  1. 输入序列化:将图像数据转换为序列形式,以便通过状态空间模型进行处理。
  2. 门控双向状态空间模型(Gated Bidirectional SSM):这是DIFFUSSM块的核心,用于处理序列数据并捕捉长距离依赖关系。
  3. Hourglass 架构:用于在多层感知机(MLP)层中交替扩展和收缩序列长度,以提高计算效率。
  4. 输出解码:将处理后的序列数据解码回原始图像空间,生成最终的图像输出。

状态空间模型(SSMs)

状态空间模型通过将系统的状态表示为一个向量,并通过状态转移方程和观测方程来描述系统的动态行为。SSMs通常用于描述线性动态系统,但也可以扩展到非线性情况。

 这个表达式描述了状态空间模型中的两个基本方程:状态方程和观测方程。

 

 DIFFUSSM块

Hourglass架构是一种特殊的网络结构,它通过在网络的不同层之间交替扩展和收缩序列长度,来优化计算效率。在DIFFUSSM块中,Hourglass架构的具体实现如下:

  • 扩展层(Upscaling Layer):将序列长度扩展,以捕捉更广泛的上下文信息。
  • 收缩层(Downscaling Layer):将序列长度收缩,以减少计算量并提取关键特征。
  • 重复层(Recurrent Layer):在扩展和收缩层之间交替使用,以实现对序列数据的深度处理。

门控双向SSM是DIFFUSSM块的核心,它结合了状态空间模型和门控机制,以增强模型的处理能力。具体来说:

  • 状态空间模型:使用线性或非线性动态系统来描述序列数据的转换过程。
  • 门控机制:通过引入额外的控制信号(如类别标签或时间步信息),来调节状态空间模型的行为,从而提高模型的灵活性和适应性。

结论

论文得出结论,DIFFUSSM作为一种不依赖注意力机制的扩散模型架构,能够有效地处理高分辨率图像生成任务,同时在计算效率和图像质量上都取得了显著的改进。此外,该架构的提出为未来在需要长距离扩散的其他领域的应用,如高保真音频、视频或3D建模,提供了新的可能性。尽管论文主要关注图像生成任务,但其提出的方法和架构也可能对其他类型的生成任务有启发作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/422175.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue邮件发送:如何有效集成邮件发送功能?

vue邮件发送功能实现方法?Vue邮件发送性能怎么优化? 无论是用户注册验证、密码重置,还是通知提醒,邮件发送功能都能提供重要的支持。本文将详细探讨如何在Vue项目中有效集成邮件发送功能,确保邮件能够准确、及时地送达…

macos 系统文件操作时提示 Operation not permitted 异常解决方法 , 通过恢复模式 开启 /关闭 SIP方法

在macos系统中操作系统文件时提示 Operation not permitted 这个异常, 原因是因为在macos 10.11以上版本中默认启用了 SIP( System Integrity Protection )机制对系统文件进行保护, 要解决这个问题我们需要关机, 然后进入mac的恢复模式 : 在按电源键开机的同时, 一直按住 co…

【机器学习】马尔可夫随机场的基本概念、和贝叶斯网络的联系与对比以及在python中的实例

引言 马尔可夫随机场(Markov Random Field,简称MRF)是一种用于描述变量之间依赖关系的概率模型,它在机器学习和图像处理等领域有着广泛的应用 文章目录 引言一、马尔科夫随机场1.1 定义1.2 特点1.3 应用1.4 学习算法1.5 总结 二、…

UG/NX加载插件失败的原因汇总

在自己的电脑上运行得好好的插件,部署到客户的电脑上出现未注册的命令错误或者“未能加载图像”的错误 1.首先检查插件的所有依赖是否齐全,确保齐全 2.这个问题在网络上搜索一番,大多数都是不知所云,后来看到这一篇文章【UG二次…

C++的流提取(>>)(输入) 流插入(<<)(输出)

什么是输入和输出流 流提取&#xff08;<<&#xff09;(输入) 理解&#xff1a;我们可以理解为&#xff0c;输入到io流里面&#xff0c;比如是cin&#xff0c;然后从输入流中读取数据 流插入&#xff08;<<&#xff09;&#xff08;输出&#xff09; 理解&#xff…

直播相关02-录制麦克风声音,QT 信号与槽,自定义信号和槽

一 信号与槽函数 #include "mainwindow.h" #include <QPushButton> #include <iostream> using namespace std;//我们的目的是在 window中加入一个button&#xff0c;当点击这个button后&#xff0c;关闭 MainWindow 。 MainWindow::MainWindow(QWidget …

828华为云征文 | 华为云Flexus X实例上实现Docker容器的实时监控与可视化分析

前言 华为云Flexus X&#xff0c;以顶尖算力与智能调度&#xff0c;引领Docker容器管理新风尚。828企业上云节之际&#xff0c;Flexus X携手前沿技术&#xff0c;实现容器运行的实时监控与数据可视化&#xff0c;让管理变得直观高效。无论是性能瓶颈的精准定位&#xff0c;还是…

TS 常用类型

我们经常说TypeScript是JavaScript的一个超级 TypeScript 常用类型 TypeScript 是 JS 的超集&#xff0c;TS 提供了 JS 的所有功能&#xff0c;并且额外的增加了&#xff1a;类型系统 所有的 JS 代码都是 TS 代码 JS 有类型&#xff08;比如&#xff0c;number/string 等&…

客厅无主灯设计:灯位布局与灯光灯具的和谐搭配

在现代家居设计中&#xff0c;客厅作为家庭活动的中心区域&#xff0c;其照明设计的重要性不言而喻。无主灯设计以其灵活多变、氛围营造独特的优势&#xff0c;逐渐成为客厅照明的热门选择。然而&#xff0c;如何合理规划灯位布局&#xff0c;并科学搭配灯光与灯具&#xff0c;…

基于java+springboot+vue实现的林业产品推荐系统(文末源码+Lw)135

基于SpringBootVue的实现的林业产品推荐系统&#xff08;源码数据库万字Lun文流程图ER图结构图演示视频软件包&#xff09; 系统功能&#xff1a; 林业产品推荐系统是在MySQL中建立数据表保存信息&#xff0c;运用SpringBoot框架和Java语言编写。 并按照软件设计开发流程进行…

ICETEK-DM6437-AICOM—— DMA直接存储器访问设计

#一、设计目的&#xff1a; 1 进一步了解 ICETEK-DM6437-AF 的内部存储器空间的分配及指令寻址方式&#xff1a; 内部存储器空间分配&#xff1a;研究 ICETEK-DM6437-AF 的存储器架构&#xff0c;包括但不限于片内 SRAM、片外 DRAM 和其他存储器模块。了解这些存储器的大小、起…

k8s 资源管理

文章目录 ResourceQuota什么是资源配额定义一个ResourceQuotaResourceQuota的使用 LimitRangeLimitRange的用途示例1&#xff1a;配置默认的requests和limits示例2&#xff1a;配置requests和limits的范围 QoS什么是服务质量保证示例1&#xff1a;实现QoS为Guaranteed的Pod示例…

优化安防视频监控的关键体验:视频质量诊断技术如何应用在监控系统中?

随着科技的不断进步&#xff0c;视频监控平台在公安、司法、教育、基础设施等众多领域得到了广泛应用。然而&#xff0c;视频图像的质量直接关系到监控系统的应用效果&#xff0c;是反映监控系统运维效果的重要指标之一。因此&#xff0c;视频监控平台需要配备一系列先进的视频…

Active Neural SLAM 复现记录

Active Neural SLAM 复现记录 创建虚拟环境安装habitat-sim安装habitat-api安装Pytorch配置项目准备数据先搞Gibson场景数据再搞pointnav任务数据创建软链接 测试训练 创建虚拟环境 conda create -n AVSLAM python3.10 conda activate AVSLAM安装habitat-sim git clone https…

存储课程学习笔记8_spdk的安装以及简单demo测试

已经对相关的基础概念有一定的了解&#xff0c;比如裸盘&#xff0c;文件系统&#xff0c;读写相关裸盘&#xff0c;裸盘挂载使用&#xff0c;内核插入文件系统的方式&#xff0c;相关操作io的库或者函数&#xff08;io_uring, readv&#xff0c;writev, mmap等&#xff09;&am…

nlohmann::json中有中文时调用dump转string抛出异常的问题

问题描述 Winodows下C开发想使用一个json库&#xff0c;使用的nlohmann::json&#xff0c;但是遇到json中使用中文时&#xff0c;转成string&#xff0c;会抛出异常。 nlohmann::json contentJson;contentJson["chinese"] "哈哈哈";std::string test con…

前端算法(持续更新)

1、最大的钻石 1楼到n楼的每层电梯口都放着一个钻石&#xff0c;钻石大小不一。你从电梯1楼到n楼&#xff0c;每层楼电梯门都会打开一次&#xff0c;只能拿一次钻石&#xff0c;问怎样才能最大的钻石&#xff1f; 解题思路&#xff1a; 这是一个经典的动态规划问题&#xff…

让人眼前一亮的软件测试简历,收不到面试邀请算我输

不知道大家的简历是不是都写成下面这样 根据需求文档进行需求分析 熟悉业务流程&#xff0c;明确测试点 根据测试点设计测试用例 参与评审测试用例 提交和回归跟踪缺陷&#xff0c;确认修复完成之后关闭Bug 通过使用Fiddler进行抓包分析并定位前后端Bug 使用简单的SQL语…

git一个项目关联多个远程仓库

一行代码就行&#xff1a; git remote set-url origin [想要关联的远程仓库地址]想要关联哪个就切换哪个 或者不用每次切换&#xff0c;集中管理&#xff1a; Git->Manage Remotes 点击“”&#xff0c;填入Name和想要关联的远程库地址 每次push时执行命令 git push [为…

美团OC感想

OC感想 晚上十点拿到美团意向了 到家事业部。&#xff0c;日常实习没过&#xff0c;暑期实习没过&#xff0c;秋招终于意向了&#xff0c;晚上十点发的&#xff0c;整整激动到一点才睡着&#xff0c;不仅因为这是秋招的第一个意向&#xff0c;更因为这是我一直心心念念想去的地…