读:《An Overview of Diffusion Models Applications……》导览

读:《An Overview of Diffusion Models: Applications,Guided Generation, Statistical Rates and Optimization》 简单说明

这篇文章也是关于 Diffusion 模型的综述,但是这一篇讲的显然不如 2022出的这篇综述 [2209.00796] Diffusion Models: A Comprehensive Survey of Methods and Applications (arxiv.org)

但是这篇在讲应用的时候带了例子可能还是不错的。


文章我的一个有理解部分分享:

2.2 条件扩散模型

这里我主要理解:就是给扩散的数据进行一个标签标记,但是数据在前向后向的过程是要被打乱的,但是条件 y 是不变的

在这里插入图片描述


3.1 视觉和音频生成

比较白话的说明了 Diffusion Model 的一些在图像、音频方面的应用,这里就放3.1的一个翻译了,感觉 第三个部分这里讲的还行吧。

扩散模型在图像和音频生成任务中实现了最先进的性能 [7–22],并且是图像和音频合成系统(例如 DALL-E [66]、稳定扩散 [101] 和 Diffwave [11])的基本构建块之一。 扩散模型的性能以高保真样本生成为评估标准,并允许使用多种指导来控制生成。指导下生成的最简单示例是生成某些类别的图像,例如猫或狗。此类分类信息被视为条件信号并输入到条件扩散模型中。更详细地说,我们使用由样本对 (xi , yi) 组成的标记数据集训练条件扩散模型,其中 yi 是图像 xi 的标签。训练是使用数据集估计条件得分函数,对 x 和 y 之间的对应关系进行建模。通过这种方式,条件扩散模型正在学习条件分布 P(x = 图像 | y = 给定标签) 并允许从分布中进行采样。 6在文本到图像合成系统中,条件信息是输入文本提示,可以是包含对象或更抽象的要求(例如美学质量)的句子。为了生成与提示一致的图像,条件扩散模型会使用大量带注释的数据集进行训练,该数据集包含表示为 (xi, yi) 的图像和文本摘要对。文本 yi 将被转换为词嵌入并作为条件扩散模型的输入。 与某些类别的图像生成类似,用于文本到图像合成的条件扩散模型学习条件分布 P(x = 图像 | y = 文本提示) 并允许从中采样。在更复杂的合成系统中,会实施一些微调步骤,以进一步实现抽象提示条件并提高生成图像的质量。例如,[78] 将离散化的后向过程 (2) 重新表述为有限时域马尔可夫决策过程 (MDP)。状态空间表示图像,条件得分函数被视为策略,奖励函数定义为测量图像与其所需文本提示的对齐程度。因此,生成与提示对齐的图像相当于通过寻找最佳策略来优化奖励。[78] 提出了一种基于策略梯度的方法来微调预训练的扩散模型。在图 2 中,我们展示了使用 [78] 中的方法从左到右对条件扩散模型进行微调的逐步改进。条件扩散模型在图像编辑和恢复 [102–109] 以及音频增强 [110–113] 中也是一个强大的工具;另请参阅综述 [22, 56] 及其中的参考文献。为了展示这个想法,我们以图像修复任务为例。修复的目标是预测图像中缺失的像素。我们将图像的已知区域表示为 y,将原始完整图像表示为 x。然后,修复归结为从条件分布 P(x = 完整图像 | y = 图像的已知区域) 中采样 x。在所有这些应用中,条件扩散模型在建模条件分布方面表现出极高的表现力和有效性 [10, 107]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/336751.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI作画算法原理

1.概述 AI作画算法的原理相当复杂,涉及多个领域的知识,包括计算机视觉、机器学习和神经网络等。我们从以下几个方面来描述AI作画算法的基本原理。 2. 数据准备 在数据准备方面,AI作画算法通常需要大量的图像数据作为训练样本。可以是各种各…

500元以内的蓝牙耳机哪个牌子好?首推四大热门品牌盘点

在500元以内的预算范围内,蓝牙耳机试市场上还是有很多可以选择的,它们以出色的音质、舒适的佩戴体验和稳定的连接性能赢得了消费者的青睐,作为一个蓝牙耳机的重度使用者,下也用过不少的500元以内的蓝牙耳机,下面就给大…

Keras深度学习框架实战(1):图像分类识别

1、绪论 1.1 图像分类的定义 图像分类是计算机视觉领域中的一项基本任务,其定义是将输入图像分配给预定义类别中的一个或多个。具体来说,图像分类系统接受一个图像作为输入,并输出一个或多个类别标签,这些标签描述了图像中的内容…

基于Pytorch框架的深度学习EfficientNetV2神经网络中草药识别分类系统源码

第一步:准备数据 5种中草药数据:self.class_indict ["百合", "党参", "山魈", "枸杞", "槐花", "金银花"] ,总共有900张图片,每个文件夹单独放一种数据 第二步&a…

String类详解

前言:String类是表示字符串的类,String类的内部也提供了非常多的方法来供程序员使用。 String类还有一大特性,就是不可变性。只要使用string创建了字符串,就不可以修改。为string类提供了一层安全性。(对于" &qu…

macOS上编译android的ffmpeg及ffmpeg.c

1 前言 前段时间介绍过使用xcode和qt creator编译调试ffmepg.c,运行平台是在macOS上,本文拟介绍下android平台如何用NDK编译链编译ffmepg库并使用。 macOS上使用qt creator编译调试ffmpeg.c macOS上将ffmpeg.c编译成Framework 大体思路: 其…

Android Context 详解

一、什么是Context? Context是一个抽象基类。在翻译为上下文,是提供一些程序的运行环境基础信息。 Context下有两个子类,ContextWrapper是上下文功能的封装类(起到方法传递的作用,主要实现还是ContextImpl&#xff0…

万字长文详解QUIC协议,为什么有了TCP我们还需要QUIC?

本文目录 1.前言2. HTTP缺点缺点一:建立连接的握手延迟大缺点二:多路复用的队首阻塞缺点三:TCP协议的更新滞后 3.TCP缺点3.QUIC优点一:避免队首阻塞的多路复用优点二:支持连接迁移优点三:可插拔的拥塞控制优…

【OceanBase诊断调优】—— obdiag 工具助力OceanBase数据库诊断调优(DBA 从入门到实践第八期)

1. 前言 昨天给大家分享了【DBA从入门到实践】第八期:OceanBase数据库诊断调优、认证体系和用户实践 中obdiag的部分,今天将其中的内容以博客的形式给大家展开一下,方便大家阅读。 2. 正文 在介绍敏捷诊断工具之前,先说说OceanBa…

VMware虚拟机安装Ubuntu-Server版教程(超详细)

目录 1. 下载2. 安装 VMware3. 安装 Ubuntu3.1 新建虚拟机3.2 安装操作系统 4. SSH方式连接操作系统4.1 好用的SSH工具下载:4.2 测试SSH连接 5. 开启root用户登录5.1 设置root用户密码5.2 传统方式切换root用户5.3 直接用root用户登录5.4 SSH启用root用户登录 6. 安…

FANUC机器人保养服务包,高效又可靠!

发那科机器人作为工业生产中的重要设备,其保养工作至关重要。定期FANUC机械手保养不仅可以延长机器人的使用寿命,还能提高生产效率和质量。 法那科机器人保养步骤: 基本的法兰克机器人保养是维护机器人的第一步,正确的保养步骤还…

Rainbond 携手 TOPIAM 打造企业级云原生身份管控新体验

TOPIAM 企业数字身份管控平台, 是一个开源的IDaas/IAM平台、用于管理账号、权限、身份认证、应用访问,帮助整合部署在本地或云端的内部办公系统、业务系统及三方 SaaS 系统的所有身份,实现一个账号打通所有应用的服务。 传统企业 IT 采用烟囱…

Redis用GEO实现附近的人功能

文章目录 ☃️概述☃️命令演示☃️API将数据库表中的数据导入到redis中去☃️实现附近功能 ☃️概述 GEO就是Geolocation的简写形式,代表地理坐标。Redis在3.2版本中加入了对GEO的支持,允许存储地理坐标信息,帮助我们根据经纬度来检索数据。…

木馒头头戴式蓝牙耳机

这里写目录标题 木馒头二代头戴式蓝牙耳机清除连接记忆 木馒头二代头戴式蓝牙耳机清除连接记忆 在配对模式下,同时按住播放和暂停按钮4秒,LED闪烁紫色3次,即为清除成功。

HTML动态响应2-Servlet+Ajax实现HTTP前后台交互方式

作者:私语茶馆 前言 其他涉及到的参考章节: HTML动态响应1—Ajax动态处理服务端响应-CSDN博客 Web应用JSON解析—FastJson1.2.83/Tomcat/IDEA解析案例-CSDN博客 HTML拆分与共享方式——多HTML组合技术-CSDN博客 1.场景: WEb项目经常需要前后端交互数据,并动态修改HTML页…

OSError: [Errno 117] Structure needs cleaning

一 问题描述 OSError: [Errno 117] Structure needs cleaning: /tmp/pymp-wafeatri 我重新使用SSH登录也会提示这个类似问题 二 解决方法 2.1 尝试删除报错的文件 (想直接看最终解决方法的可忽略此处) sudo rm -rf /tmp/pymp-wafeatri 此种方法只能保证…

【linux-imx6ull-设备树点灯】

目录 1. 设备树简介1.1 编译-引用1.2 设备树文件结构1.3 设备树节点介绍1.3.1 特殊节点chosen 1.4 节点内容追加 2. 设备树常用OF操作函数2.1 节点寻找类2.2 属性提取类2.3 其它常用类 4. 设备树下LED实验4.1 实验简介4.2 添加LED设备节点4.3 获取设备节点并提取属性4.3.1 获取…

内网渗透-隧道搭建ssp隧道代理工具

内网渗透-隧道搭建&ssp隧道代理工具 目录 内网渗透-隧道搭建&ssp隧道代理工具spp隧道代理工具spp工作原理图cs上线主机spp代理通信服务端配置客户端配置CS配置设置CS生成木马的监听器配置CS监听上线的监听器生成木马 spp隧道搭建服务端配置客户端配置CS配置 内网穿透&a…

【机器学习300问】100、怎么理解卷积神经网络CNN中的池化操作?

一、什么是池化? 卷积神经网络(CNN)中的池化(Pooling)操作是一种下采样技术,其目的是减少数据的空间维度(宽度和高度),同时保持最重要的特征并降低计算复杂度。池化操作不…

【吊打面试官系列】Java高并发篇 - 什么是乐观锁和悲观锁?

大家好,我是锋哥。今天分享关于 【什么是乐观锁和悲观锁?】面试题,希望对大家有帮助; 什么是乐观锁和悲观锁? 1、乐观锁: 就像它的名字一样,对于并发间操作产生的线程安全问题持乐观状态, 乐观锁认为竞争…