【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

  • Introduction
      • 方法
    • 使用传统GANS建模去噪分布
    • 理解模式覆盖率

Paper:https://arxiv.org/abs/2112.07804
Code:https://github.com/NVlabs/denoising-diffusion-gan
Authors:Nvlabs, Zhisheng Xiao, Karsten Kreis, Arash Vahdat

Introduction

在这里插入图片描述
主流生成模型(Generative Models)的优缺点以及它们在三个关键目标上的表现:高质量样本生成、模式覆盖和多样性、快速采样。

在本文中,我们通过重新制定去噪扩散模型来解决生成学习三引理,专门用于快速采样,同时保持强大的模式覆盖率和样本质量。

  1. 扩散模型通常假设去噪分布可以近似为高斯分布。然而,众所周知,高斯假设仅在小去噪步骤的无穷小极限中成立,这导致在反向过程中需要大量的步骤。
  2. 当反向过程使用更大的步长(即去噪步骤更少)时,需要一个非高斯多模态分布来建模去噪分布。直观地说,在图像合成中,多模态分布源于多个似是而非的干净图像可能对应于相同的噪声图像这一事实。

受这一观察的启发,我们建议使用富有表现力的多模态分布参数化去噪分布,以实现大步骤的去噪。特别是,我们引入了一种新的生成模型,称为去噪扩散 GAN,其中去噪分布用条件 GAN 建模

在图像生成中,我们观察到我们的模型获得了与扩散模型竞争的样本质量和模式覆盖率,同时只需要两个去噪步骤,与Song等人(2021c)在CIFAR-10上的预测器校正器采样相比,采样速度提高了约2000倍。与传统的GANs相比,我们表明我们的模型在样本多样性方面明显优于最先进的GANs,同时在样本保真度方面具有竞争力

总之,我们做出了以下贡献:

  1. 我们将扩散模型的缓慢采样归因于去噪分布中的高斯假设,并提出采用复杂的多模态去噪分布。
  2. 我们提出了去噪扩散 GAN,这是一种扩散模型,其反向过程由条件 GAN 参数化。
  3. 通过仔细评估,我们证明了去噪扩散 GAN 与当前的图像生成和编辑扩散模型相比实现了几个数量级的加速。我们表明,我们的模型在很大程度上克服了深度学习三引理,使得扩散模型首次以较低的计算成本适用于交互式的现实世界应用程序。

方法

扩散模型文献中的一个常见假设是用高斯分布近似 q ( x t − 1 ∣ x t ) q(x_{t−1}|x_t) q(xt1xt)。在这里,我们质疑这种近似何时是准确的
LSGM尝试使用 VAE 将数据编码到高斯分布,但仍然需要数百或数十步,而且数据分布压缩到高斯分布是十分困难的。

在本文中,我们认为当不满足任何条件时,即当去噪步长较大且数据分布为非高斯时,不能保证去噪分布的高斯假设成立。为了说明这一点,在图 2 中,我们可视化了多模态数据分布的不同去噪步长的真实去噪分布。我们看到,随着去噪步骤变大,真正的去噪分布变得更加复杂和多模态。
在这里插入图片描述
上图:一维数据分布 q(x0) 通过扩散过程的演变。底部:以固定的x5为条件的不同步长的真实去噪分布的可视化。**小步长(即q(x4|x5 = X))的真实去噪分布接近于高斯分布。**然而,随着步长的增加,它变得更加复杂和多模态。

使用传统GANS建模去噪分布

我们的目标是减少扩散模型反向过程中所需的去噪扩散步骤T的数量。受上述观察的启发,我们建议对去噪分布进行建模具有表现力的多模态分布。由于条件 GAN 已被证明可以对图像域的复杂条件分布进行建模(Mirza & Osindero,2014;Ledig 等人,2017;Isola 等人,2017),我们采用它们来近似真实去噪分布 q(xt−1|xt)。

具体来说,我们的正向扩散的设置类似于Eq. 1中的扩散模型,主要假设T很小(T≤8),每个扩散步长βt较大。我们的训练是通过使用对抗性损失匹配条件 GAN 生成器 pθ (xt−1|xt) 和 q(xt−1|xt) 来制定的,该对抗性损失最小化每个去噪步骤的散度 Dadv:

在这里插入图片描述
在这里插入图片描述

简而言之:
给定x0,前向加噪过程为 xt-1 到 xt;在扩散模型 xt 的基础上预测 x’0,随后将其加噪成 x’t-1;然后以 xt、xt-1(或 x’t-1)和 t 为条件输入到判别器网络中进行对抗性训练。

我们模型的一个自然问题是,为什么不仅仅是训练一个 GAN,它可以使用传统的设置一次性生成样本,而我们的模型通过迭代去噪生成样本。我们的模型比传统的 GAN 有几个优点。众所周知,GAN 存在训练不稳定和模式崩溃的问题(Kodali 等人,2017;Salimans 等人,2016),一些可能的原因包括难以直接从一次性的复杂分布中采样,以及鉴别器仅查看干净样本时的过拟合问题。相比之下,由于对 xt 的强条件作用,我们的模型将生成过程分解为几个条件去噪扩散步骤,其中每个步骤对模型相对简单。此外,**扩散过程平滑了数据分布(Lyu, 2012),使鉴别器不太可能过拟合。**因此,我们希望我们的模型表现出更好的训练稳定性和模式覆盖率。我们在第 5 节中凭经验验证了传统 GAN 的优势。

理解模式覆盖率

在这里插入图片描述
生成模型的结果是否可以 cover Real samples。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/421585.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker启动Mysql镜像报错问题?

docker中启动mysql镜像报错如下:ls: cannot access /docker-entrypoint-initdb.d/: Operation not permitted 百度上查到了很多解决方案,也咨询了很多大佬,加权限,改用户,均无果。最终在阿里巴巴上找到了解决方案&…

[论文笔记]ChatQA: Surpassing GPT-4 on Conversational QA and RAG

引言 今天来看一下上篇论文笔记中反复介绍的 ChatQA: Surpassing GPT-4 on Conversational QA and RAG。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们介绍了 ChatQA,这是一个模型套件,一…

算法设计(一)

1.汉诺塔 介绍 汉诺塔(Hanoi Tower):它描述了如何将一堆大小不同、穿在一根柱子上的盘子移动到另一根柱子上,同时满足以下规则: 每次只能移动一个盘子。 每个移动盘子时,大的盘子不能放在小的盘子上面。 可以使用一根…

curl和ping

curl获取页面内容,ping测试连通 curl和ping是两个在网络环境中常用的命令行工具,但它们的目的和应用场景有很大的不同。 curl 用途:curl是一个命令行工具,用于传输数据,支持多种协议,包括HTTP、HTTPS、FT…

1. 运动控制指令概要(omron 机器自动化控制器)

机器自动化控制器——第一章 运动控制指令概要 1-1 运动控制指令PLCopen运动控制用功能块运动控制指令概要▶ 运动控制指令的种类▶ 状态变化▶ 运动控制指令的启动和状态▶ 异常处理▶ 执行运动控制指令时输入变量的变更(指令重启)▶ 通过选择缓存模式执行指令多重启动▶ 通过…

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以…

C语言程序设计——函数(一)

一、概述 一个较大的程序可分为若干个程序模块,每一个模块用来实现一个特定的功能。在高级语言中用子程序实现模块的功能。子程序由函数来完成。一个C程序可由一个主函数和若干个其他函数构成。 由主函数调用其他函数,其他函数也可以互相调用。同一个函数可以被一个或多个函…

C语言-数据结构 无向图克鲁斯卡尔算法(Kruskal)邻接矩阵存储

相比普里姆算法来说,克鲁斯卡尔的想法是从边出发,不管是理解上还是实现上都更简单,实现思路:我们先把找到所有边存到一个边集数组里面,并进行升序排序,然后依次从里面取出每一条边,如果不存在回…

99.游戏安全项目-可见数据的搜索与技巧

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于:易道云信息技术研究院 上一个内容:98.游戏的启动与多开-分析与实现多开器 下图中红框位置显示的数据,只有下图…

横版闯关手游【全明星时空阿拉德】Linux手工服务端+运营后台+双app端

横版闯关手游【时空阿拉德】(【全明星阿拉德】)阿拉德系列2022整理Linux手工服务端余额充值后台安卓苹果双端。 运营后台看目录结构是thinkphp开发的。 代码免费下载:百度网盘

再识Clip

来源 CLIP损失函数的理解-CSDN博客 Simple Implementation of OpenAI CLIP model: A Tutorial | Towards Data Science 【小白】一文读懂CLIP图文多模态模型_clip模型-CSDN博客 从 CLIP 聊聊多模态自监督学习新范式 - 知乎 (zhihu.com) CLIP 论文逐段精读【论文精读】_哔哩…

BC173 牛牛逆序输出(c 语言)

1.// 描述 //牛牛在尝试把一个整数逆序地输出。 //输入描述: //输入一个正整数 n。保证个位数不是 0 //输出描述: //逆序输出这个正整数。 //2345 //5432 2.我们先输入n,然后我们进行取余,然后将余数存储起来在arr中,然后除10。…

串口接收不到数据之电阻虚焊bug分析思路

单片机和EC移远通信模块进行通信,相同的代码运行在相同的硬件上,但是一个能联网,一个因为没有EC的应答连不上网。 开始分析,排除软件问题,给EC模块发为什么没应答? 1.发送失败 2.接收失败 排除情况2&#x…

redis底层—网络模型

1.用户空间和内核空间 2.阻塞IO 3.非阻塞IO 4.IO多路复用 select模式的三个问题: 能监听的FD最大不超过1024 每次select都需要把所有要监听的FD都拷贝到内核空间 每次都要遍历所有FD来判断就绪状态 poll模式的问题: poll利用链表解决了select中监听FD上限…

基于RFID技术的光交箱哑资源智能化管理方案

一、现状 (一)现状与挑战 在当前通信网络基础设施中,哑资源如光缆接头、跳线等在网络中占据着重要地位。然而,传统的哑资源管理方式存在诸多问题,一方面,管理主要依赖人工记录和定期巡检,效率…

活动|华院计算宣晓华受邀出席“AI引领新工业革命”大会,探讨全球科技的最新趋势

8月31日,“AI引领新工业革命”大会于上海图书馆圆满落幕。本次大会由TAA校联会和台协科创工委会联合主办,得到上海市台办、上海市台联、康师傅的大力支持。大会邀请了NVIDIA全球副总裁、亚太区企业营销负责人刘念宁,元禾厚望资本创始合伙人潘…

【视频教程】GEE遥感云大数据在林业中的应用与典型案例实践

近年来遥感技术得到了突飞猛进的发展,航天、航空、临近空间等多遥感平台不断增加,数据的空间、时间、光谱分辨率不断提高,数据量猛增,遥感数据已经越来越具有大数据特征。遥感大数据的出现为相关研究提供了前所未有的机遇&#xf…

基于STM32C8T6的CubeMX:HAL库点亮LED

三个可能的问题和解决方法: 大家完成之后回来看,每一种改错误都是一种成长,不要畏惧,要快乐,积极面对,要耐心对待 STMCuBeMX新建项目的两种匪夷所思的问题https://mp.csdn.net/mp_blog/creation/editor/1…

网络基础入门指南(三)

一、远程管理交换机 1.配置IP地址 远程管理需要通过IP地址访问网络设备交换机的接口,默认无法配置IP地址需要使用虚接口vlan1 2.配置远程登录密码 远程管理需要配置VTY接口VTY是虚拟终端,是一种网络设备远程连接的方式vty 0 4表示可同时打开5个会话 3…

1.C++入门1(c++编译过程,命名空间,C++输入输出,缺省参数)

⭐从本章开始学习c,此篇文章作为c专栏的第一篇文章。 ⭐本人c代码的Gitee仓库:c学习 橘子真甜/yzc的c学习 - 码云 - 开源中国 (gitee.com) 目录 一.编程过程 二.命名空间(namespace) 2.1 为何要用命名空间 2.2 命名空间的定义…