Stable Diffusion 系列教程

1.基本原理

2.主流方式

3.配置要求

3.1 显卡方面

4.基本界面

4.1 模型设置区

4.2 菜单栏区域

4.3 提示词区

4.4 出图设置区

5.文生图基本操作流程

5.1 选用模型，撰写提示词

5.2 进行出图设置

5.3 再次出图！

5.4 保存

1.基本原理

在2012年，就有很多的学者对图像生成展开了研究，但在那时候，因为算法，数据，算力等各方面原因，生成的图像过于“抽象” ，可以称他为灵魂画手，直到最近两年，AI产出的图像内容在质量上和准确度上渐渐地变得更高，同时由于一些辅助装备，如ControlNet等让AI绘画可控性更高，也更受到大家的重视。

现在的主流的AI绘画模型，主要运用了扩散Diffusion模型，他很人类绘画相比差异很大，不是起稿，勾线，描边，上色等步骤按部就班完成的，他采取了一个独特的方式

首先它将图片通过增加噪声的方式进行“扩散”，也就是让他变得更模糊，当内容模糊之后，我们就可以理解为有更大的空间让它自由发挥了，AI也是如此，但是在训练它的过程中，它可以学习到一种重要的能力，就是逐步恢复这种杂乱的噪声为真实图像

而如果在训练的过程中我们给AI 一些限制条件等，AI就可以按我们限制条件去恢复生成我们想要的图像了

2.主流方式

Midjourney，DALL E等方式

（1）出图额度需要购买会员（换句话说就是需要付费）直接租价格比较贵，可以去租用共享账号

（2）较容易出比较高质量的图

（3）模型部署在云端，不需要本地电脑配置较高

Stable Diffusion

（1）是一款免费的软件，可以无限制出图

（2）但是有一定的上手门槛，出图质量需要较多的调控才能达到满意的效果，因而我们这系列教程主要围绕stable diffusion

（3）部署在本地，比较吃电脑配置，显卡内存（也可以部署在GPU服务器）

（4）但是由于开源，依托强大的开源社区，收获非常多的活跃用户，可以进行个性化的训练，个性化程度较高

3.配置要求

3.1 显卡方面

显卡品牌型号 N卡（英伟达的独立显卡）首选，目前也支持A卡，但是速度较N卡慢

不同品牌型号，意味着显卡的算力不同，进而影响着出图的速度

查看自己的显卡品牌型号的方法如下链接

分享几种查看本机显卡类型的方法~~ - 知乎 (zhihu.com)

查到以后可以对照下表，下表是不同型号N卡出一张512*512分辨率的图片，迭代步数为100步的时间

图片来源 B站 Nenly同学

显卡内存 最少8GB能玩，16GB及格，上不封顶，越高玩的越爽内存主要影响着出图分辨率，模型大小等

硬盘空间 最少有60GB以上的硬盘空间，因为我们需要下载很多模型，而一个模型往往都有几个GB

4.基本界面

下面界面是加了一些插件之后的，如中文插件，图库浏览器，如果你使用的是一些大佬的整合包，那么一般他们都会帮助你安装好，但是如果没有也无所谓，我们会在之后给大家讲解插件的安装

4.1 模型设置区

左上角用来更换模型

点击下拉箭头查看并且选择模型

模型需要我们提前下载并且保存到根目录/models/Stable-diffusion文件夹下

当我们保存模型到上述文件夹下后，点击蓝色的刷新按钮，刷新模型，再点击下拉箭头就可以看到我们的模型了

4.2 菜单栏区域

一些基本功能

最常用的两个文生图，图生图

选项	作用
文生图	由prompts提示词生成图片
图生图	由已有的图片+提示词生成图片
图库浏览器（后安装的插件）	查看生成的图片
Tag 反推	由图片反推提示词prompts
设置	进行一些设置操作
扩展	进行扩展安装管理等操作

其他我们用到的时候再介绍

4.3 提示词区

最关键的一个区域，也就是我们念咒语的地方，这里用英语撰写（可以用翻译软件）

正向提示词 希望画面出现的内容，一般我们会有一些固定的提示词，如（杰作masterpiece, 最高质量best quality，高细节）特定模型也会有特定的让画面质量变高的正向提示词

反向提示词 不希望画面出现的内容，如（丑陋的，多手指的）

之后会给大家专门总结，到时候直接复制粘贴即可

提示词区右边的生成下边有五个小图标，相当于一些快捷键，从左到右依次为

图标	作用
箭头	复原上次生成图片的提示词（自动记录）
垃圾桶	清空当前所有提示词
红色日出	打开其他模型选择界面如Embedding，HypernetWork的选择，这些模型后面会单独讲到
记事薄	应用选择的风格模板到当前提示词，就是着五个小图标下面那个风格模板选项
保存按钮	保存当前的正反向提示词

4.4 出图设置区

如图

从上到下，左到右依次介绍

采样方法

采样方法具体是什么涉及到模型原理，不必深究，我们这里只需要知道什么时候用什么样的采样方法即可，一般遵循如下原则

（1）在显卡给力，时间充裕的条件下，可以自己尝试比较不同的采样方法

（2）一般在C站下载模型的同时，模型作者会给出他觉得比较好的采样方式，这是作者已经经过大量实验的结论，可以帮助你节约时间

（3）没有作者相关建议的时候

对于二次元图 DPM++ 2M或DPM++ 2M Karras UniPC

对于真实系图 Euler a、DPM++ SDE、DPM++ SDE Karras

同时，一般而言带++的都相对来说不戳

迭代采样步数

之前讲原理的时候，模型将噪声一步一步恢复到真实图片，此参数控制这些去噪步骤的数量。通常越高越好，但在一定程度上，我们使用的默认值是25个步骤。以下是不同情况下使用哪个步骤编号的一般指南：

（1）如果正在测试新的提示，并希望获得快速结果来调整您的输入，请使用10-15个步骤

（2）当您找到您喜欢的提示时，请将步骤增加到25

（3）如果是有毛皮的动物或有纹理的主题，生成的图像缺少一些细节，尝试将其提高到40

面部修复：修复人物的面部，但是非写实风格的人物开启面部修复可能导致面部崩坏。 平铺/分块：生成一张可以平铺的图像 高分辨率重绘：使用两个步骤的过程进行生成，以较小的分辨率创建图像，然后在不改变构图的情况下改进其中的细节，选中后会有新的参数，之后专门出一篇介绍

宽度高度 出图分辨率设置最佳的范围应在512至768像素之间

设置的出图分辨率太低，会导致图像不清晰

设置的出图的分辨率过高，一方面显存支撑不了，另外一方面可能会导致图像生成多人情况，

生成批次：每次生成图像的组数。 每批数量：每组多少个图像。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1

提示词相关性CFG：较高的数值将提高生成结果与提示的匹配度。 OpenArt上使用的默认CFG是7，这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于5。 CFG量表可以分为不同的范围，每个范围都适合不同的提示类型和目标 CFG 2 – 6：有创意，但可能太扭曲，没有遵循提示。对于简短的提示来说，可以很有趣和有用 CFG 7-10：推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15：当您确定您的提示是详细且非常清晰的，您希望图像是什么样子时 CFG 16-20：除非提示非常详细，否则通常不推荐。可能影响一致性和质量 CFG >20：几乎无法使用

随机种子（Seed）:生成每张图片时的随机种子，这个种子是用来作为确定扩散初始状态的基础。不懂的话，用随机的即可。

5.文生图基本操作流程

我们可能一下子了解不了这么多，大家可能都看困了，那么我们来亲自来出一张图，体验一下基本的过程，加深印象

5.1 选用模型，撰写提示词

在左上角模型选取，选择深渊橘模型

写提示词

画面内容 用自己的语言描述一个画面出来

如一个女生在城市里骑着自行车，阳光洒在她的身上，但是提示词不认中文打开翻译软件，翻译即可

A girl rides a bicycle in the city, and the sunlight shines on her

但仅有这个远远不够，不相信？给你看一下这样图片直出有多离谱

点击生成，喀嚓，生成如下

惨不忍睹，所以还需要加一些正面对画面质量这些约束的咒语

在正向提示框加入

SFW, (masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),

反向提示框加入

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),