Stable Diffusion — ControlNet 超详细讲解

Stable Diffusion — ControlNet 超详细讲解

ControlNet 最近非常火🔥!ControlNet 和 Stable Diffusion 的结合使 Stable Diffusion 能够接受指导图像生成过程的条件输入,从而增强了 Stable Diffusion 的性能。今天为大家深入剖析 ControlNet 的工作原理。

img

文章目录

    • 什么是 ControlNet
    • 内部架构
      • 前馈
      • 反向传播
    • 与 Stable Diffusion 相结合
      • 编码器
      • 整体架构
    • 训练
    • 输入条件
    • 总结

什么是 ControlNet

ControlNet 是一个控制预训练图像扩散模型(例如 Stable Diffusion)的神经网络。它允许输入调节图像,然后使用该调节图像来操控图像生成。

这里的调节图像类型众多,例如涂鸦、边缘图、姿势关键点、深度图、分割图、法线图等,这些输入都可以作为条件输入来指导生成图像的内容。 下面是一些例子:

在这里插入图片描述

图片来源:https://github.com/lllyasviel/ControlNet

内部架构

在这里插入图片描述

图1. ControlNet 内部架构

Stable Diffusion (UNet) 中的所有参数都被锁定并克隆到 ControlNet 端的可训练副本中。然后使用外部条件向量训练该副本。

创建原始权重的副本而不是直接训练原始权重是为了防止数据集较小时出现过拟合,并保持已经训练好的大模型的高质量,这些大模型在数十亿图像上训练得到,并可以直接部署到生产环境使用。

前馈

在这里插入图片描述

图2. ControlNet 前馈部分

解释一下上图公式和符号:

  • x , y x, y x,y:神经网络中的深层特征
  • c c c:额外条件
  • + + + : 特征相加
  • Z ( ⋅ ; ⋅ ) \mathcal{Z}(\cdot\;;\;\cdot) Z(;):零卷积运算(权重和偏差都用零初始化的 1 x 1 卷积层)
  • F ( ⋅ ; ⋅ ) \mathcal{F}(\cdot\;;\;\cdot) F(;):神经网络块操作(例如 “resnet” 块、“conv-bn-relu” 块等)
  • Θ z 1 \Theta_{z1} Θz1:第一个零卷积层的参数
  • Θ z 2 \Theta_{z2} Θz2:第二个零卷积层的参数
  • Θ c \Theta_c Θc:可训练副本的参数

第一步训练

在这里插入图片描述

图3. ControlNet 的第一步训练

在第一步训练中,由于零卷积层的权重和偏差被初始化为零,因此前馈过程与没有 ControlNet 的过程相同。

经过反向传播后,ControlNet 中的零卷积层变为非零并影响输出。

换句话说,当 ControlNet 应用于某些神经网络块时,在进行任何优化之前,不会对深度神经特征造成任何影响。

反向传播

在这里插入图片描述

图4. ControlNet 反向传播部分

反向传播更新 ControlNet 中的可训练副本和零卷积层,使零卷积权重通过学习过程逐渐过渡到优化值。

为什么梯度不会为零?

我们可以假设如果卷积层的权重为零,则梯度为零。 然而,事实并非如此。

假设 y = w x + b y = wx + b y=wx+b 是零卷积层,其中 w w w b b b 分别是权重和偏差, x x x 是输入特征图。以下是每一项的梯度。
y = w x + b ∂ y ∂ w = x ∂ y ∂ x = w ∂ y ∂ b = 1 y = wx+b\\ \frac{\partial y}{\partial w} = x \qquad \frac{\partial y}{\partial x} = w \qquad \frac{\partial y}{\partial b} = 1 y=wx+bwy=xxy=wby=1
如果 w = 0 w=0 w=0 x ≠ 0 x \ne 0 x=0,则
∂ y ∂ w = x ≠ 0 ∂ y ∂ x = w = 0 ∂ y ∂ b = 1 ≠ 0 \frac{\partial y}{\partial w} = x \ne 0 \qquad \frac{\partial y}{\partial x} = w = 0 \qquad \frac{\partial y}{\partial b} = 1 \ne 0 wy=x=0xy=w=0by=1=0
回想一下梯度下降和链式法则:
w ← w − α ∂ L ∂ w w ← w − α ∂ L ∂ ⋅ … ∂ L ∂ w ⏟ ≠ 0 w \larr w-\alpha\frac{\partial \mathcal{L}}{\partial w}\\ w \larr w-\alpha\frac{\partial \mathcal{L}}{\partial \cdot}\dots\frac{\partial \mathcal{L}}{\underbrace{\partial w}_{\ne 0}} wwαwLwwαL=0 wL
一步训练之后, ∂ y ∂ x ≠ 0 \frac{\partial y}{\partial x} \ne 0 xy=0

一开始,当权重值 w = 0 w = 0 w=0 时,输入特征 x x x 通常不为0。结果,虽然 x x x 上的梯度由于零卷积而变为0,但权重和偏置的梯度不受影响。尽管如此,在一个梯度下降步骤之后,权重值 w w w 将更新为非零值(因为 y y y w w w 的偏导数非零)。

与 Stable Diffusion 相结合

编码器

由于 Stable Diffusion 的 UNet 接受潜在特征 ( 64 × 64 64 \times 64 64×64) 而不是原始图像,因此我们还必须将基于图像的条件转换为 64 × 64 64 \times 64 64×64 的特征空间以匹配卷积大小。
c f = ε ( c i ) c_f = \varepsilon(c_i) cf=ε(ci)
我们可以使用网络 ε \varepsilon ε 将输入条件 c i c_i ci 编码为特征图 c f c_f cf

在这里插入图片描述

图5. ControlNet 编码器

上图中,我们使用 z t z_t zt z t − 1 z_{t-1} zt1 作为锁定网络块的输入和输出,以匹配 Stable Diffusion 上下文中的符号。

整体架构

下图展示了 Stable Diffusion 中 ControlNet 和 UNet 在一个去噪步骤中的输入和输出。

在这里插入图片描述

图6. 一步去噪流程

此外,下图从整体上说明了 ControlNet 和 Stable Diffusion 如何在反向扩散过程(采样)中协同工作。

在这里插入图片描述

图7. 整体反向扩散的流程

上图是根据我之前关于 Stable Diffusion 的文章修改的。如果您还没有阅读过,建议您阅读 《Stable Diffusion 超详细讲解》 和 《Diffusion Model 深入剖析》。

训练

ControlNet 损失函数与 Stable Diffusion 的损失函数类似,但包含文本条件 c t c_t ct 和潜在条件 c f c_f cf,以提高输出与指定条件的一致性。

Stable Diffusion 损失函数:
L = E z 0 , t , ϵ [ ∥ ϵ − ϵ θ ( z t , t ) ∥ 2 ] \mathcal{L} = \mathbb{E}_{z_0,t,\epsilon}\big[\Vert \epsilon - \epsilon_\theta(z_t,t)\Vert^2\big] L=Ez0,t,ϵ[ϵϵθ(zt,t)2]
Stable Diffusion + ControlNet 损失函数:
L = E z 0 , t , ϵ , c t , c f [ ∥ ϵ − ϵ θ ( z t , t , c t , c f ) ∥ 2 ] \mathcal{L} = \mathbb{E}_{z_0,t,\epsilon,\boxed{c_t,c_f}}\big[\Vert \epsilon - \epsilon_\theta(z_t,t,\boxed{c_t,c_f})\Vert^2\big] L=Ez0,t,ϵ,ct,cf[ϵϵθ(zt,t,ct,cf)2]
作为训练过程的一部分,我们随机用空字符串替换 50% 的文本提示 c t c_t ct。这有助于 ControlNet 更好地理解输入条件图的含义,例如 Canny 边缘图或人类涂鸦。

在这里插入图片描述

图8. 训练 ControlNet

通过删除提示,编码器被迫更多地依赖控制图中的信息,这提高了其理解其语义内容的能力。

输入条件

ControlNet 是一种灵活的工具,允许您使用不同类型的条件输入来加强 Stable Diffusion。以下是可在 ControlNet 中使用的输入类型。

Canny 边缘图

img

线条图

img

涂鸦

img

霍夫线

img

语义分割

img

深度图

img

法线图

img

姿势

img

总结

ControlNet 是一种神经网络,可以与预训练的扩散模型结合使用,特别是 Stable Diffusion 模型。

ControlNet 允许将条件输入(例如边缘图、分割图和关键点)包含到 Stable Diffusion 等大型扩散模型中。

结合 ControlNet 可以更好地控制图像生成过程,从而能够生成更具体、更符合要求的图像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/128547.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Axure RP仿QQ音乐app高保真原型图交互模板源文件

Axure RP仿QQ音乐app高保真原型图交互模板源文件。本套素材模板的机型选择华为的mate30,在尺寸和风格方面,采用标准化制作方案,这样做出来的原型图模板显示效果非常优秀。 原型中使用大量的动态面板、中继器、母版,涵盖Axure中技…

SpringMVC中的综合案例

目录 一.常用注解 实例: 二.参数转递 2.1. 基础类型 2.2. 复杂类型 2.3. RequestParam 2.4.PathVariable 2.5.RequestBody 2.6.RequestHeader 2.7. 请求方法 三.返回值 3.1.void 3.2.String 3.3 StringModel 3.4 ModelAndView 四、页面跳转 4.1.转发 4.…

Python爬虫 教程:IP池的使用

前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 一、简介 爬虫中为什么需要使用代理 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率…

Redis(详细)

目录 Redis是什么 Redis的主要特点 Redis的使用场景 会话存储 缓存存储 实现分布式锁 Redis为什么这么快 基于内存操作 高效的数据结构 多路I/O复用模型 单线程执行 Redis常见的数据结构 Redis有序列表的实现 跳跃表的执行流程 Redis分布式锁实现 使用分布式锁…

【iOS】MVC

文章目录 前言一、MVC各层职责1.1、controller层1.2、model层1.3、view层 二、总结三、优缺点3.1、优点3.2、缺点 四、代码示例 前言 MVC模式的目的是实现一种动态的程序设计,使后续对程序的修改和扩展简化,并且使程序某一部分的重复利用成为可能。除此…

win10自带wifi共享功能

1、按下【wini】组合键打开windows设置,点击【网络和internet】; 2、按照下图,打开个移动热点,设置名称、密码。

【C++】详解std::thread

2023年9月10日,周日下午开始 2023年9月10日,周日晚上23:35完成 虽然这篇博客我今天花了很多时间去写,但是我对std::thread有了一个完整的认识 不过有些内容还没完善,以后有空再更新.... 目录 头文件类的成员类型方法(construc…

LVS DR模式负载均衡群集部署

目录 1 LVS-DR 模式的特点 1.1 数据包流向分析 1.2 DR 模式的特点 2 DR模式 LVS负载均衡群集部署 2.1 配置负载调度器 2.1.1 配置虚拟 IP 地址 2.1.2 调整 proc 响应参数 2.1.3 配置负载分配策略 2.2 部署共享存储 2.3 配置节点服务器 2.3.1 配置虚拟 IP 地址 2.3.2…

iOS IdiotAVplayer实现视频分片缓存

文章目录 IdiotAVplayer 实现视频切片缓存一 iOS视频边下边播原理一 分片下载的实现1 分片下载的思路2 IdiotAVplayer 实现架构 三 IdiotAVplayer 代码解析IdiotPlayerIdiotResourceLoaderIdiotDownLoader IdiotAVplayer 实现视频切片缓存 一 iOS视频边下边播原理 初始化AVUR…

自动化运维——ansible (五十二) (01)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 一、概述 1.1 为什么要用自动化运维软件 1.2 自动化运维 1.3 自动化运维要注意的方面 1.4 自动化运维主要关注的方面 1.5 常见的开源自动化运维软件 1.6 自动化运维软件…

K8S:kubectl陈述式及声明式资源管理

文章目录 一.陈述式资源管理方法1.陈述式资源管理概念2.基本信息查看(1)查看版本信息(2)查看资源对象简写(3)查看集群信息(4)配置kubectl自动补全(5)node节点…

外传-Midjourney的局部重绘功能

今天在抄袭。。。啊不,借鉴 midjourney 官网教程的时候,发现多了一个 局部重绘的功能,意外发觉还不错,分享一下用法。 先给大家说一下,我这段时间都在学习 SD,局部重绘是基操,而 MJ 一直是次次…

为什么要使用设计模式,以及使用设计模式的好处

在软件开发中,衡量软件质量只要包含如下指标: 正确性可维护性可读性可扩展性简洁性可测试性健壮性灵活性可复用性 然而,对于一些刚入行的新程序员来说,往往会注意不到上面这些问题,从而产生了一些让人头皮发麻的烂代…

【动态规划刷题 13】最长递增子序列 摆动序列

300. 最长递增子序列 链接: 300. 最长递增子序列 1.状态表示* dp[i] 表⽰:以 i 位置元素为结尾的「所有⼦序列」中,最⻓递增⼦序列的⻓度。 2.状态转移方程 对于 dp[i] ,我们可以根据「⼦序列的构成⽅式」,进⾏分类讨论&#…

生成树协议 STP(spanning-tree protocol)

一、STP作用 1、消除环路:通过阻断冗余链路来消除网络中可能存在的环路。 2、链路备份:当活动路径发生故障时,激活备份链路,及时恢复网络连通性。 二、STP选举机制 1、目的:找到阻塞的端口 2、STP交换机的角色&am…

MAC M1芯片安装mounty读写移动硬盘中的文件

因为移动硬盘中的文件是微软公司NTFS格式,MAC只支持自己的APFS或者HFS,与微软的NTFS不兼容,所以需要第三方的软件来支持读写硬盘中的文件,经过一上午的折腾,最终选择安装mounty这个免费的第三方软件 工具网址连接&am…

YOLO目标检测——棉花病虫害数据集+已标注txt格式标签下载分享

实际项目应用:目标检测棉花病虫害数据集的应用场景涵盖了棉花病虫害的识别与监测、研究与防治策略制定、农业智能决策支持以及农业教育和培训等领域。这些应用场景可以帮助农业从业者更好地管理棉花病虫害,提高棉花产量和质量,推动农业的可持…

线性代数的本质(二)

文章目录 线性变换与矩阵线性变换与二阶方阵常见的线性变换复合变换与矩阵乘法矩阵的定义列空间与基矩阵的秩逆变换与逆矩阵 线性变换与矩阵 线性变换与二阶方阵 本节从二维平面出发学习线性代数。通常选用平面坐标系 O x y Oxy Oxy ,基向量为 i , j \mathbf i,…

指针进阶(一)

指针进阶 1. 字符指针面试题 2. 指针数组3. 数组指针3.1 数组指针的定义3.2 &数组名VS数组名 3.3 数组指针的使用4. 数组传参和指针传参4.1 一维数组传参4.2 二维数组传参4.3 一级指针传参4.4 二级指针传参 前言 指针的主题,我们在初级阶段的《指针》章节已经接…

用滑动条做调色板---cv2.getTrackbarPos(),cv2.creatTrackbar()

滑动轨迹栏作调色板 cv.createTrackbar(‘R’, ‘image’, 0, 255, nothing) 参数:哪个滑动轨迹栏,哪个窗口,最小值,最大值,回调函数 cv.getTrackbarPos(‘R’, ‘image’) 参数:轨迹栏名,窗口…