Is Noise Conditioning Necessary for Denoising Generative Models?论文阅读笔记

在这里插入图片描述

  • 很吸引人的一个标题,很吸引人的一个作者,来读一读明神的新作,讲的是怎么把去噪领域的一些有意思的思想,特别是blind denoising和noise-level estimation的思想,应用到denoising diffusion模型中,从而去掉denoising duffusion中的noise condition,也就是DDNM和DDPM中的时间步长 t,t 是用来估计噪声强度的,其实和blind denoising与noise-level estimation的噪声强度是对应的,既然blind denoising可以在无需提供噪声强度作为提示的情况下进行去噪,是不是意味着denoising generative model也不需要 t 作为输入呢。如果能做到这一点,是有好处的,比如可以使用一个统一的score function,而不需要以 t 为条件,这样在理论上更优雅一些。

  • 文章提到,尽管损失函数是以下公式:
    在这里插入图片描述
    但网络的regression target却并不是 r ( x , ϵ , t ) r(x,\epsilon,t) r(x,ϵ,t),而是一些能够将 ( x , ϵ , t ) (x,\epsilon,t) (x,ϵ,t)映射到 z z z r r r值的期望。说起来有点绕,换个说法,如果已知 z z z t t t,有没有可能得知一个唯一正确的 r r r,文章想表达的是不可能,已知 z z z t t t的情况下 r r r不唯一,那么这个损失函数并不是真正地让网络在回归拟合一个函数,这个函数不存在,网络只是在学习r的可能取值的期望。文章画了个图来表达这个不唯一性
    在这里插入图片描述

  • 那么我们可以把这个损失函数改为它的等价形式,设 r r r的期望为 R R R,那么等价形式是:
    在这里插入图片描述
    在这里插入图片描述
    而关于这个采样函数 p p p我们所知就是 z z z x x x的条件分布和 ( x , ϵ , t ) (x,\epsilon,t) (x,ϵ,t)的联合分布:
    在这里插入图片描述

  • 这个时候我们可以把 t t t去掉,假设网络并不以 t t t为输入,会变成下面的损失函数:
    在这里插入图片描述

  • 从新的 R ( z ) R(z) R(z)可以看到,如果这里的 p ( t ∣ z ) p(t|z) p(tz)是一个狄拉克delta函数,也就是说无论 t t t是一个确定值,已知 z z z就已知 t t t,那 R ( z ∣ t ) R(z|t) R(zt)就是一个确定值,可以直接当作 R ( z ) R(z) R(z),就可以直接用这里的unconditional变体代替conditional的,网络就不需要 t t t作为额外输入。

  • 那接下来的问题就是确定 p ( t ∣ z ) p(t|z) p(tz)有多接近一个狄拉克delta函数。这里就可以从noise level estimation借鉴,既然这些方法可以从带噪声的图片估计出噪声强度,那么当 z z z是一张带噪声图片时, p ( t ∣ z ) p(t|z) p(tz)就是一个concentrated distribution,这就比较接近狄拉克delta函数了。具体有多接近,要看分布的方差有多大,文中推导了以下结果:
    在这里插入图片描述
    其中 d d d是数据维度

  • 可以看到,数据维度越大,对应的方差就越小。不过这里是用简单假设推导的,实际的复杂情况可以用实验来试试:
    在这里插入图片描述

  • 接着可以分析直接用狄拉克delta代替 p ( t ∣ z ) p(t|z) p(tz),即去掉 t t t导致的误差有多大:
    -
    在这里插入图片描述
    这里 E ( z ) E(z) E(z)约等于1,大概是 R ( z ) R(z) R(z)的千分之一,因此可以去掉 t t t,误差并不会太大。不过,由于推理阶段需要迭代采样,随着采样schedule的不同,产生的积累误差也不同。具体推导在这:
    在这里插入图片描述

  • 并且,前面的分析基于的假设是网络在学习 R ( z ∣ t ) R(z|t) R(zt)和学习 R ( z ) R(z) R(z)时都能完美拟合,但实际上学习 R ( z ∣ t ) R(z|t) R(zt)和学习 R ( z ) R(z) R(z)的难度不同,网络有可能因为学习 R ( z ∣ t ) R(z|t) R(zt)更难而学习 R ( z ) R(z) R(z)更简单,导致尽管 R ( z ) R(z) R(z)存在误差,但是网络预测与 R ( z ) R(z) R(z)之间的误差更小,使得总误差相比学习 R ( z ∣ t ) R(z|t) R(zt)要更小,即学习 R ( z ) R(z) R(z)的方法可能比学习 R ( z ∣ t ) R(z|t) R(zt)具备更优秀的性能。所以接下来就是实验部分,把网络的noisie conditioning去掉,并且找到一个使得误差足够小的采样schedule。

  • 文章对DDIM等模型做了一些实验,结果是,使用 t t t通常效果会更好,但没有 t t t其实也并不影响网络的生成能力,网络仍然能正常生成图片。只是效果不如使用 t t t的模型。文章也试了几种不使用 t t t的方案,其实结果都差不多:
    在这里插入图片描述

  • 总结,很有意思的一篇工作,虽然没有提出效果更好的模型,但是从理论和实验都展示了一个结论, t t t不是必要的,期待引入一些方法,在无 t t t的denoising generative model上有更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26046.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PDF文档中表格以及形状解析

我们在做PDF文档解析时有时需要解析PDF文档中的表格、形状等数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。下面我们来看看使用文档解析的方案来做PDF文档中的表格、图形解析(使用pdfium库)。 表格解析: 在pdfium库…

ESP32-S3 42引脚 语音控制模块、设备运转展示 GOOUUU TECH 果云科技S3-N16R8 控制舵机 LED开关 直流电机

最近还是想玩了下esp32,基于原来的开发板,看见佬做了一个语音识别的项目,通过这个语音识别可以控制LED开关和直流电机这些,详情可见视频(推荐)具体硬件就在下方。 信泰微】ESP32-S3 42引脚 语音控制模块、…

RabbitMQ快速入门

目录 MQ简介 1、同步通信 图片 2、异步通信 图片 RabbitMQ快速上手 基本介绍: Producer和Consumer Connection和Channel Virtual host Queue Exchange 工作流程 AMQP Java编写RabbitMQ生产者消费者 生产者 1.建立连接 2.开启信道 3.声明交换机 4.声…

【Qt】编程基础

目录 一、Qt体系框架: ​编辑二、布局方式: 1.绝对布局 setGeometry()函数 2.盒子布局: QHBoxLayout:水平布局管理器 QVBoxLayout:垂直布局管理器 QGridLayout:网格布局管理器 三、基本控件及其函数 标签类 :QLabel 按…

温湿度监控设备融入智慧物联网

当医院的温湿度监控设备融入智慧物联网,将会带来许多新的体验,可以帮助医院温湿度监控设备智能化管理,实现设备之间的互联互通,方便医院对温湿度数据进行统一管理和分析。 添加智慧物联网技术,实现对医院温湿度的实时…

登录次数限制

文章目录 一、应用场景与设计目的1. 应用场景2. 设计目的 二、功能设计1. 登录限制规则2. 解锁机制3. 适用维度 三、技术实现1. 数据存储2. 逻辑流程3. 实现代码示例4. 动态锁定时间 四、安全增强与扩展1. 防止用户名枚举2. 加入验证码3. 监控与报警4. 分布式支持 五、设计思考…

人工智能销售客服app开发,OpenAI宣布GPT-5免费使用?Deepseek让AI巨头全跪了

人工智能技术的飞速发展,正在深刻改变着各行各业,销售客服领域也不例外。随着 GPT-5 等大型语言模型的不断进化,AI 销售客服系统也迎来了前所未有的变革,开启了智能客服的新时代。 传统客服痛点亟待解决: 传统的销售…

vscode集成DeepSeek

vscode 扩展 安装 Cline Meet Cline,一个可以使用你的CLI和编辑器的AI助手。 得益于 Claude 3.5 Sonnet的代理编码功能,Cline 可以逐步处理复杂的软件开发任务。借助让他创建和编辑文件、探索大型项目、使用浏览器和执行终端命令(在您授予权限后)的工具&…

2.27-1笔记1

一、新建表 二、建表语句 create table student( id int primary key , name char(20), sex char(10), age int(3), mobile char(20), class char(10), english int(10), chinese int(10), math int(10) )engineinnodb default charsetutf8; insert into student values (1,小…

30.[前端开发-JavaScript基础]Day07-数组Array-高阶函数-日期Date-DOM

JavaScript的DOM操作 (一) 1 什么是DOM? 认识DOM和BOM 深入理解DOM 2 认识DOM Tree DOM Tree的理解 3 DOM的整体结构 DOM的学习顺序 DOM的继承关系图 document对象 4 节点、元素导航 节点(Node)之间的导航&…

【Viewer.js】vue3封装图片查看器

效果图 需求 点击图片放大可关闭放大的 图片 下载 cnpm in viewerjs状态管理方法 stores/imgSeeStore.js import { defineStore } from pinia export const imgSeeStore defineStore(imgSeeStore, {state: () > ({showImgSee: false,ImgUrl: ,}),getters: {},actions: {…

Haption:机器人遥操作触觉力反馈技术革新解决方案

在机器人遥操作过程中,实时、准确地感知机器人所抓握物体的大小与力度,是机器人能否胜任复杂精密任务的关键所在。触觉力反馈技术的融入,正为遥操作技术带来前所未有的变革,推动其迈向新的发展阶段。作为力反馈技术的佼佼者&#…

⭐算法OJ⭐矩阵的相关操作【动态规划 + 组合数学】(C++ 实现)Unique Paths 系列

文章目录 62. Unique Paths动态规划思路实现代码复杂度分析 组合数学思路实现代码复杂度分析 63. Unique Paths II动态规划定义状态状态转移方程初始化复杂度分析 优化空间复杂度状态转移方程 62. Unique Paths There is a robot on an m x n grid. The robot is initially lo…

简单介绍JVM

1.什么是JVM? JVM就是Java虚拟机【Java Virtual Machine】,简称JVM。主要部分包括类加载子系统,运行时数据区,执行引擎,本地方法库等,接下来我们一一介绍 2.类加载子系统 JVM中运行的就是我们日常写的JA…

【HarmonyOS Next】鸿蒙状态管理装饰器V1和V2混用方案

【HarmonyOS Next】鸿蒙状态管理装饰器V1和V2混用方案 一、V1和V2为什么需要混用 自从api7开始,一直到api10。V1的实际使用中,开发人员发现Observed和ObjectLink 监听实现多层级嵌套对象的更新的方案,太过于臃肿。当需要监听处理更新的多层…

IP段转CIDR:原理Java实现

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

考研出分24小时,人类精神状态图鉴

2月24日,上午10点起,各省考研初试成绩陆续公布,考生们或紧张的输入准考证号,或抱团等待“审判”。然而更魔幻的还在后头——下午4点,教育部竟在同一天直接发布了《2025年研考国家分数线》。 不少网友表示:…

卷积神经网络梯度下降方向与参数更新方向的一致性论述

梯度下降是一种常用的优化算法,用于最小化损失函数,在机器学习和深度学习领域有着广泛的应用。分别对梯度下降、梯度方向以及参数更新采用负梯度方向的原因进行论述。 1.梯度下降 它的基本思想是通过迭代的方式来更新模型的参数,使得损失函数…

使用 Spring Boot 和 Keycloak 的 OAuth2 快速指南

1. 概述 本教程是关于使用 Spring Boot 和 Keycloak 通过 OAuth2 配置后端的。 我们将使用 Keycloak 作为 OpenID 提供程序。我们可以将其视为负责身份验证和用户数据(角色、配置文件、联系信息等)的用户服务。它是最完整的 OpenID Connect &#xff0…

GCN从理论到实践——基于PyTorch的图卷积网络层实现

Hi,大家好,我是半亩花海。图卷积网络(Graph Convolutional Network, GCN)是一种处理图结构数据的深度学习模型。它通过聚合邻居节点的信息来更新每个节点的特征表示,广泛应用于社交网络分析、推荐系统和生物信息学等领…