AI绘画经验（stable-diffusion）

提示词理解

总的

AI绘画的优点是【想象力】，而不是自然语言的精确描述。
AI绘画只能控制【主体】和【风格】，姿势，表情，装饰，手指都太过于详细了。这也是【人类画师的魅力】
准确描述是徒劳的，只能通过【整体姿态】描述，在做什么事情，而不能描述如何做这个事情。

规则

概念性的、大范围的、风格化写在前面，叙述画面内容其次，最后是描述细节的关键词。
单词描述，一个穿着红色披风的男孩站在山顶应该分为，一个男孩，穿着红色披风，站在山顶。
提示词的权重从前到后依次降低，也就说越靠前的提示词权重越高。
提示词的数量尽量控制在75个Token以内。
小括号增强权重，比如（white hair）(white hair:1.5)。
下划线连接成组成整体，比如（coffee_cake）就不会同时出现两种。
交替采样， [prompt1: prompt2:0.3]，交替步骤，前30%执行prompt1。

典型提示词

通用

positive：

high quality, very intricate,

negative：

(deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation.

结构

Subject: person, animal, character, location, object, etc.
Medium: photo, painting, illustration, sculpture, doodle, tapestry, etc.
Environment: indoors, outdoors, on the moon, in Narnia, underwater, the Emerald City, etc.
Lighting: soft, ambient, overcast, neon, studio lights, etc.
Color: vibrant, muted, bright, monochromatic, colorful, black and white, pastel, etc.
Mood: sedate, calm, raucous, energetic, etc.
Composition: Portrait, headshot, closeup, birds-eye view, etc.
Artistic Style: Impressionism, Surrealism, Cubism, Abstract, Realism, etc.
Painting Technique: Oil, Watercolor, Acrylic, Digital, Pastel, Ink, etc.
Historical Period: Renaissance, Baroque, Romanticism, Modernism, Contemporary, etc.
Cultural Influence: Chinese, Japanese, African, Native American, European, etc.
Texture: Smooth, Rough, Glossy, Matte, Textured, etc.

例子

an image of a girl with white hair, in the style of ross tran, light teal and dark orange, guido van helten, close-up shots, comic art, realistic marine paintings.
a blue girl with gold angel halo head, in the style of neon realism, darkly romantic illustrations, dark white and yellow, solapunk, i can't believe how beautiful this is, simplistic cartoon.
a digital painting of a lady waiting in bed, seductive pose, narcissistic, confident, long hair, elegant, expressionism, high quality, very intricate, by Jeremy Mann, Milo Manara, Jean-Baptiste Monge

艺术风格

comic art，漫画风格，柔和
photograph：写实风格，真实世界
lnk painting：水墨画，粗犷线条
pixel art：像素艺术
cartoon：卡通风格
neon realism：霓虹现实主义，动漫
realistic marine painting，现实主义海洋，海水的透明感和动态效果，细腻的笔触和对光影效果的捕捉
darkly romantic illustrations，黑暗浪漫主义
digital painting，数字绘画，也就是电脑现代绘画
expressionism：表现主义，夸张、变形和强烈的色彩来表达情感
futuristic illustration：未来主义，科技，科幻，乌托邦，激发观者的想象力
cybernetic ：赛博朋克，高科技社会混乱
Delicate details：细节丰富
japanese-inspired art：受日本风格影响日，本艺术以其独特的美学、技巧和视觉语言

艺术家风格

ross tran：现代人物漫画风格，画法柔和温柔，擅长捕捉人物的情感和表情，色彩运用温馨而和谐
Alfons Mucha：精致的细节、流畅的线条和植物图案，强烈的装饰性和象征性。
Guido van Helten：大型壁画，风格忧郁，采用写实风格，细节纹理分明，光影和灰度来传达情绪
Hayao Miyazaki：宫崎骏
Yoshiyuki Sadamato：贞本义行
Hideaki Anno：庵野秀明

Brian Miller：油画的柔和感，细节丰富，带有一种复古的魅力
Butcher Billy：插画风格冷峻犀利，骨感明显，常常带有一种讽刺和幽默感
Beeple：常常包含强烈的视觉冲击和深刻的主题
Beksinski：令人毛骨悚然，风格深邃成熟，常常展现出一种末日般的荒凉感
H.R. Giger：风格严肃怪诞，常常使用黑色调，融合科幻和恐怖元素，创造出独特的生物机械美学
Henri Gervex：实主义风格，巴黎社会的各种场景，擅长捕捉人物的表情和动态
Jean-Honoré Fragonard：洛可可风格，轻松愉快的爱情和享乐场景，充满了优雅和装饰性
Michael Garmash：浪漫印象派画家，油画质感
Andreas Rocha：宏大的场景设定，如环境设定和奇幻场景，十分注重色彩的统一

stable-diffusion原理

顶层核心

VAE

编码器（Encoder）：VAE的编码器负责将输入的图像数据转换为一个低维的潜在空间表示，这个表示通常是一个概率分布。在Stable Diffusion中，编码器将图像压缩成一个较小的Latent特征向量，这个向量包含了图像的关键信息，并且可以作为U-Net的输入。

解码器（Decoder）：VAE的解码器则负责将这个低维的潜在空间表示重新转换回原始的图像数据。在Stable Diffusion中，解码器将Latent特征向量还原成像素级的图像，从而生成新的图像。

U-Net：

噪声预测：在反向扩散过程中，U-Net接收噪声图像和文本嵌入作为输入，预测当前步骤中需要去除的噪声分量。这是通过学习噪声的分布和特征来实现的。

条件生成：U-Net利用文本嵌入作为条件信息，确保生成的图像内容与文本描述相匹配。这种条件生成能力使得模型能够根据文本描述生成相应的图像。

逐步去噪：U-Net在多个时间步上迭代工作，每一步都预测并去除一部分噪声，直到图像完全去噪。这个过程是逐步的，每一步都使图像更加清晰。

特征融合：U-Net通过跳跃连接融合不同尺度的特征，这有助于模型在去噪的同时保持图像的细节和结构。

CLIP：

CLIP模型的文本编码器能够将文本描述转换为一个向量表示，这个向量捕捉了文本的语义信息。在Stable Diffusion中，文本编码器用于将文本描述转换为可以与图像潜在表示相结合的嵌入向量，从而实现文本到图像的生成。

扩散

训练阶段：

前向扩散：在训练阶段，前向扩散用于生成一系列逐渐增加噪声的图像，这些图像作为训练数据的一部分。模型学习如何从这些噪声图像中预测原始图像，即学习去噪过程。
反向扩散：在训练阶段，模型通过反向扩散学习如何从噪声图像逐步恢复到原始图像。这是通过训练一个神经网络（如UNet）来实现的，网络学习预测每一步去噪过程中需要去除的噪声。

生成阶段（文生图）：

在生成阶段，即文本到图像的生成过程中，模型使用反向扩散过程来生成图像。这个过程从随机噪声开始，逐步去除噪声，生成与文本描述相匹配的图像。
前向扩散在生成阶段不直接参与图像生成，但它在训练阶段学习到的去噪模式被用于生成阶段的反向扩散过程中。

专业过程

输入：

文本（prompt）通过文本编码器（Text Encoder）提取出文本嵌入（Text Embeddings），尺寸为77x768。
同时，初始化一个潜在空间（Latent space）的随机高斯噪声矩阵，尺寸为64x64x4，对应512x512分辨率的图像。

生成过程：

将文本嵌入和随机高斯噪声矩阵通过交叉注意力（CrossAttention）机制送入U-Net模型中。
结合调度器算法（Scheduler algorithm），迭代去噪，经过多次迭代后生成去噪后的潜在特征（Latent Feature）。

输出：

将去噪后的潜在特征送入VAE的解码器（Decoder）模块，重建出像素级图像，分辨率为512x512。

通俗过程

文本编码：

首先，文本描述通过一个文本编码器（如CLIP模型中的文本编码器）转换为一个高维向量。这个向量捕捉了文本的语义信息，即文本描述的内容和上下文。
CLIP模型是一个多模态模型，它能够将文本和图像映射到同一个嵌入空间中，使得文本和图像可以相互匹配。CLIP的文本编码器通过在大量文本-图像对上进行训练，学习到了丰富的语义表示。

噪声图像：

在文本到图像生成的开始，通常有一个噪声图像，它是通过向量量化或随机采样得到的。这个噪声图像作为生成过程的起点，将通过逆向扩散过程逐步转化为清晰的图像。

结合文本向量和噪声图像：

文本向量和噪声图像被输入到一个生成模型中，通常是扩散模型中的UNet网络。UNet网络能够处理图像数据，并在每一步去噪过程中考虑文本向量提供的语义信息。
在逆向扩散的每一步中，UNet网络不仅预测需要去除的噪声，还根据文本向量调整图像的生成，确保生成的图像与文本描述相匹配。

逆向扩散过程：

逆向扩散是一个逐步去除噪声的过程，每一步都使图像更加清晰，并逐渐接近最终的图像。这个过程是迭代的，每一步都会使用UNet网络来预测和去除噪声。
在每一步中，文本向量都会指导UNet网络的预测，确保生成的图像内容与文本描述一致。这样，即使从完全的噪声开始，模型也能够生成与文本描述相匹配的图像。

生成图像：

经过足够多的迭代步骤后，噪声图像将被完全转化为清晰的图像。这个图像不仅在视觉上与文本描述相匹配，而且在语义上也与文本向量相关联。

模型

在Stable diffusion中，模型主要分为五大类，分别是Stable diffusion模型、VAE模型、Lora模型、Embedding模型以及Hypernetwork模型。
Lora模型并不能单独使用，它必须与前面的大模型一起使用！LoRA的英文全称为Low-Rank Adaptation of Large Language Models，直译为“大语言模型的低阶适应”。

采样方法(sampler)