论文阅读：《High-Resolution Image Synthesis with Latent Diffusion Models》

论文阅读：《High-Resolution Image Synthesis with Latent Diffusion Models》

news/2024/12/28 18:56:25/文章来源:https://blog.csdn.net/huzimu_/article/details/136288014

High-Resolution Image Synthesis with Latent Diffusion Models

论文链接
代码链接

What’s the problem addressed in the paper?(这篇文章究竟讲了什么问题？比方说一个算法，它的 input 和 output 是什么？问题的条件是什么)

这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型（LDM），解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。
下图是LDM的结构流程图，从左到右的三个模块分别是：感知图片压缩（Perceptual Image Compression），潜在扩散模型（Latent Diffusion Model），和条件机制模块（Condition mechanism）。首先，原始图片 $x$ 在像素空间中被感知压缩模型压缩为潜在空间特征 $z$ ，然后，Unet通过扩散过程（向 $z$ 中添加噪声和去除噪声）重构了潜在空间特征 $z_t$ ，其被解码为输出图片 $\tilde{x}$ 。在这个过程中，条件机制将输入的条件（例如，文本，图片等）编码为文本嵌入。然后，利用cross-attention机制将条件输入注入到Unet结构中。

Is it a new problem? If it is a new problem, why does it matters? 新问题的话有意义吗？重要吗？ If it is not an entirely new problem, why does it still matter? 为什么要研究这个问题/为什么这个问题是重要的

不是新问题，但是仍然很重要
因为在高分辨率图片数据上进行训练时梯度的计算量很大，而现有的采样和层级化策略无法解决这个问题。

What is the scientific hypothesis that the paper is trying to verify? 这篇文章觉得自己发现了什么新的知识？

在一个压缩的潜在空间（compressed latent space）上优化的一个潜在扩散模型，可以高效和低开销地合成高分辨率的图片，在和cross-attention机制结合后，LDM可以有效应用于条件生成任务，包括文本生成图片等任务。

What are the key related works and what are the key people working in this topic?

Diffusion Models（DMs) & UNet:
Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
cross attentions
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
UNet:
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
image compression
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR,abs/2012.09841, 2020

What’s the key of the proposed solution in the paper? 所提解决方案的关键

将在像素空间上优化扩散模型转变为在一个低维潜在空间上优化模型

How are experiment designed?

1、分析不同downsampling factors f 对LDMs性能的影响，包括FID，IS等指标（On Perceptual Compression Tradeoffs）
2、无条件图片合成评估：在不同数据集上，像素空间上训练的DMs和LDM在图片质量（FID）和有效性（Precision和Recall）上进行比较（Image Generation with Latent Diffusion）
3、条件图片合成评估（text-to-image, class-to-image, layout-to-image, image-to-image)（Conditional Latent Diffusion）

文生图

4、超分辨率图片合成（在低分辨率数据集上训练的模型可以生成高分辨率图片）（Super-Resolution with Latent Diffusion）
5、图片修复任务（Inpainting with Latent Diffusion）

What datasets are used for quantatitiave evaluation? Is the code open sourced?

数据集：unconditional：CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102]，and ImageNet [12]；conditional：LAION-400M [78]
评估标准：FID、IS、Precision-and-Recall等
代码：https://github.com/CompVis/latent-diffusion
基准方法

Is the scientific hypothesis well supported by evidence in the experiments?

是。LDM相较于像素空间训练的DMs，大大降低了计算开销，并且在无条件和条件图片合成任务中表现得更好。

What are the contributions of this paper? （try to summarize in your own words)

压缩的低维度潜在空间相较于像素空间，在高分辨率图片合成时更能减少计算和时空开销，同时保证图片质量
潜在扩散模型（LDM）能够在多种图片合成任务上取得优异的变现（包括无条件和条件生成）
开源可复用的代码

What should do next? 这篇文章局限性在哪里，接着它还能怎么做？

尽管LDM比基于像素空间的DMs减少了很多计算开销，但是它的序列采样过程仍然比GAN慢
LDM在像素空间上需要高细粒度精度的任务，LDM仍然存在不足

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/265966.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

el-autocomplete 提示文字出不来？修改支持模糊搜索提示

el-autocomplete 提示文字出不来？修改支持模糊搜索提示

查看本专栏目录关于作者还是大剑师兰特：曾是美国某知名大学计算机专业研究生，现为航空航海领域高级前端工程师；CSDN知名博主，GIS领域优质创作者，深耕openlayers、leaflet、mapbox、cesium，canvas&#x…

阅读更多...

Groovy(第九节) Groovy 之单元测试

Groovy(第九节) Groovy 之单元测试

JUnit 利用 Java 对 Song 类进行单元测试默认情况下 Groovy 编译的类属性是私有的，所以不能直接在 Java 中访问它们，必须像下面这样使用 setter：编写这个测试用例余下的代码就是小菜一碟了。测试用例很好地演示了这样一点：用 Groovy 所做的一切都可以轻易地在 Java 程序…

阅读更多...

[ai笔记12] chatGPT技术体系梳理+本质探寻

[ai笔记12] chatGPT技术体系梳理+本质探寻

欢迎来到文思源想的ai空间，这是技术老兵重学ai以及成长思考的第12篇分享！ 这周时间看了两本书，一本是大神斯蒂芬沃尔弗拉姆学的《这就是ChatGPT》,另外一本则是腾讯云生态解决方案高级架构师宋立恒所写的《AI制胜机器学习极简入门》&#xf…

阅读更多...

安享智慧理财项目实战-黑马金融实战项目

安享智慧理财项目实战-黑马金融实战项目

阅读更多...

JavaScript+PHP实现视频文件分片上传

JavaScript+PHP实现视频文件分片上传

摘要视频文件分片上传，整体思路是利用JavaScript将文件切片，然后循环调用上传接口 upload.php 将切片上传到服务器。这样将由原来的一个大文件上传变为多个小文件同时上传，节省了上传时间，这就是文件分片上传的其中一个好处。上…

阅读更多...

算法沉淀——动态规划之两个数组的 dp（下）（leetcode真题剖析）

算法沉淀——动态规划之两个数组的 dp（下）（leetcode真题剖析）

算法沉淀——动态规划之两个数组的 dp 01.正则表达式匹配02.交错字符串03.两个字符串的最小ASCII删除和04.最长重复子数组 01.正则表达式匹配题目链接：https://leetcode.cn/problems/regular-expression-matching/ 给你一个字符串 s 和一个字符规律 p&#xff0c…

阅读更多...

【Unity每日一记】角色控制器Character Contorller

【Unity每日一记】角色控制器Character Contorller

👨‍💻个人主页：元宇宙-秩沅 👨‍💻 hallo 欢迎点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由秩沅原创 👨‍💻 收录于专栏：Uni…

阅读更多...

Python中的数据类型

Python中的数据类型

如果说python中的数据类型,那我们要从标准数据类型说起,在python中标准数据类型如下: 数字类型: 数字数据类型用于存储数值。他们是不可改变的数据类型，这意味着改变数字数据类型会分配一个新的对象。在python2.X中数据类型分的比较多,有int(有符号整型),long(…

阅读更多...

Redis——服务器

Redis——服务器

Redis服务器负责与多个客户端建立网络连接，处理客户端发送的命令请求，在数据库中保存客户端执行命令所产生的数据，并通过资源管理来维持服务器自身的运行。一. 命令请求的执行过程一个命令请求从发送到获得回复过程中，客户端和服…

阅读更多...

【MySQL】基本查询（表的增删改查）-- 详解

【MySQL】基本查询（表的增删改查）-- 详解

CRUD：Create（创建），Retrieve（读取），Update（更新），Delete（删除）。一、Create insert [into] table_name [(column [, column] ...)] v…

阅读更多...

从0到1实现五子棋游戏！！

从0到1实现五子棋游戏！！

Hello，好久不见宝子们，今天来给大家更一个五子棋的程序~ 我们今天要讲的内容如下： 文章目录 1.五子棋游戏介绍1.1 游戏玩法介绍： 2.准备工作2.1 具体操作流程 3.游戏程序主函数4.初始化棋盘4.1.定义宏变量4.2 初始化棋盘 5.打印…

阅读更多...

什么是VR紧急情况模拟|消防应急虚拟展馆|VR游戏体验馆加盟

什么是VR紧急情况模拟|消防应急虚拟展馆|VR游戏体验馆加盟

VR紧急情况模拟是利用虚拟现实（Virtual Reality，简称VR）技术来模拟各种紧急情况和应急场景的训练和演练。通过VR技术，用户可以身临其境地体验各种紧急情况，如火灾、地震、交通事故等，以及应对这些紧急情况的…

阅读更多...

常用git 打tag命令

常用git 打tag命令

1.查看所有tag git tag 2.创建 v5.0.0的tag git tag v5.0.0 git tag （创建后查看） 3.推送到远程tag git push origin v5.0.0 4.删除远程tag git push origin --delete v5.0.0 5.删除本地tag git tag -d v5.0.0 6.添加带有备注信息的tag git tag v5.…

阅读更多...

linux系统Jenkins的安装

linux系统Jenkins的安装

Jenkins安装安装上传安装包解压包首次登录要去服务器查看密码，更改密码选择需要安装的插件设置Admin用户和密码安装完成安装上传安装包上传 jdk17 tomcat jenkins.war的安装包 . 上传 tomcat安装包解压包解压jdk tar xf jdk-11.0.18_linux-x64_bin.tar.gz解…

阅读更多...

Golang embed 库全面解析：从基础到高级应用

Golang embed 库全面解析：从基础到高级应用

Golang embed 库全面解析：从基础到高级应用引言Golang的 embed：简化资源管理提升可移植性与便利性适用场景的拓展 embed 库的基本概念embed 库的工作原理使用 embed 的基本语法访问嵌入资源的方法embed 的限制如何使用 embed嵌入单个文件嵌入整个目录结…

阅读更多...

python 3.11中安装sympy(符号工具包)

python 3.11中安装sympy(符号工具包)

1.python环境： 2.安装遇到问题： 其中一台Win10系统上： … 另一台Win10系统上： 3.升级pip cmd命令行中，执行如下命令： python.exe -m pip installl --upgrade pip 4.再次安装sympy cmd命令行中&…

阅读更多...

前端架构: 脚手架包管理工具之lerna的全流程开发教程

前端架构: 脚手架包管理工具之lerna的全流程开发教程

Lerna 1 ）文档 Lerna 文档 https://www.npmjs.com/package/lernahttps://lerna.js.org [请直达这个链接] 使用 Lerna 帮助我们做包管理，并不复杂，中间常用的命令并不是很多这里是命令直达：https://lerna.js.org/docs/api-referen…

阅读更多...

深度学习--神经网络基础

深度学习--神经网络基础

神经网络人工神经网络（ Artificial Neural Network ， 简写为 ANN ）也简称为神经网络（ NN ），是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络，由众多的神经元…

阅读更多...

刷题第2天（中等题）：LeetCode59--螺旋矩阵--考察模拟能力（边界条件处理）

刷题第2天（中等题）：LeetCode59--螺旋矩阵--考察模拟能力（边界条件处理）

LeetCode59: 给你一个正整数 n ，生成一个包含 1 到 n2 所有元素，且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。示例 1： 输入：n 3 输出：[[1,2,3],[8,9,4],[7,6,5]]示例 2： 输入&#xff1a…

阅读更多...

高刷显示器 - HKC VG253KM

高刷显示器 - HKC VG253KM

🔥🔥 今天来给大家揭秘一款电竞神器 - HKC VG253KM 高刷电竞显示器！这款显示器可是有着雄鹰展翅般的设计灵感，背后的大鹏展翅鹰翼图腾让人过目难忘。那么，这款显示器到底有哪些过人之处呢？一起来看看吧&…

阅读更多...

最新文章

推荐文章