AI绘画经验(stable-diffusion)

提示词理解

总的

  1. AI绘画的优点是【想象力】,而不是自然语言的精确描述。

  2. AI绘画只能控制【主体】和【风格】,姿势,表情,装饰,手指都太过于详细了。这也是【人类画师的魅力】

  3. 准确描述是徒劳的,只能通过【整体姿态】描述,在做什么事情,而不能描述如何做这个事情。

规则

  1. 概念性的、大范围的、风格化写在前面,叙述画面内容其次,最后是描述细节的关键词。

  2. 单词描述,一个穿着红色披风的男孩站在山顶应该分为,一个男孩,穿着红色披风,站在山顶。

  3. 提示词的权重从前到后依次降低,也就说越靠前的提示词权重越高。

  4. 提示词的数量尽量控制在75个Token以内。

  5. 小括号增强权重,比如(white hair)(white hair:1.5)。

  6. 下划线连接成组成整体,比如(coffee_cake)就不会同时出现两种。

  7. 交替采样, [prompt1: prompt2:0.3],交替步骤,前30%执行prompt1。

典型提示词

通用

positive:

high quality, very intricate,

negative:

(deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation.

结构

  • Subject: person, animal, character, location, object, etc.

  • Medium: photo, painting, illustration, sculpture, doodle, tapestry, etc.

  • Environment: indoors, outdoors, on the moon, in Narnia, underwater, the Emerald City, etc.

  • Lighting: soft, ambient, overcast, neon, studio lights, etc.

  • Color: vibrant, muted, bright, monochromatic, colorful, black and white, pastel, etc.

  • Mood: sedate, calm, raucous, energetic, etc.

  • Composition: Portrait, headshot, closeup, birds-eye view, etc.

  • Artistic Style: Impressionism, Surrealism, Cubism, Abstract, Realism, etc.

  • Painting Technique: Oil, Watercolor, Acrylic, Digital, Pastel, Ink, etc.

  • Historical Period: Renaissance, Baroque, Romanticism, Modernism, Contemporary, etc.

  • Cultural Influence: Chinese, Japanese, African, Native American, European, etc.

  • Texture: Smooth, Rough, Glossy, Matte, Textured, etc.

例子

  1. an image of a girl with white hair, in the style of ross tran, light teal and dark orange, guido van helten, close-up shots, comic art, realistic marine paintings.

  2. a blue girl with gold angel halo head, in the style of neon realism, darkly romantic illustrations, dark white and yellow, solapunk, i can't believe how beautiful this is, simplistic cartoon.

  3. a digital painting of a lady waiting in bed, seductive pose, narcissistic, confident, long hair, elegant, expressionism, high quality, very intricate, by Jeremy Mann, Milo Manara, Jean-Baptiste Monge

艺术风格

  1. comic art,漫画风格,柔和

  2. photograph:写实风格,真实世界

  3. lnk painting:水墨画,粗犷线条

  4. pixel art:像素艺术

  5. cartoon:卡通风格

  6. neon realism:霓虹现实主义,动漫

  7. realistic marine painting,现实主义海洋,海水的透明感和动态效果,细腻的笔触和对光影效果的捕捉

  8. darkly romantic illustrations,黑暗浪漫主义

  9. digital painting,数字绘画,也就是电脑现代绘画

  10. expressionism:表现主义,夸张、变形和强烈的色彩来表达情感

  11. futuristic illustration:未来主义,科技,科幻,乌托邦,激发观者的想象力

  12. cybernetic :赛博朋克,高科技社会混乱

  13. Delicate details:细节丰富

  14. japanese-inspired art:受日本风格影响日,本艺术以其独特的美学、技巧和视觉语言

艺术家风格

  1. ross tran:现代人物漫画风格,画法柔和温柔,擅长捕捉人物的情感和表情,色彩运用温馨而和谐

  2. Alfons Mucha:精致的细节、流畅的线条和植物图案,强烈的装饰性和象征性。

  3. Guido van Helten:大型壁画,风格忧郁,采用写实风格,细节纹理分明,光影和灰度来传达情绪

  4. Hayao Miyazaki:宫崎骏

  5. Yoshiyuki Sadamato:贞本义行

  6. Hideaki Anno:庵野秀明

  1. Brian Miller:油画的柔和感,细节丰富,带有一种复古的魅力

  2. Butcher Billy:插画风格冷峻犀利,骨感明显,常常带有一种讽刺和幽默感

  3. Beeple:常常包含强烈的视觉冲击和深刻的主题

  4. Beksinski:令人毛骨悚然,风格深邃成熟,常常展现出一种末日般的荒凉感

  5. H.R. Giger:风格严肃怪诞,常常使用黑色调,融合科幻和恐怖元素,创造出独特的生物机械美学

  6. Henri Gervex:实主义风格,巴黎社会的各种场景,擅长捕捉人物的表情和动态

  7. Jean-Honoré Fragonard:洛可可风格,轻松愉快的爱情和享乐场景,充满了优雅和装饰性

  8. Michael Garmash:浪漫印象派画家,油画质感

  9. Andreas Rocha:宏大的场景设定,如环境设定和奇幻场景,十分注重色彩的统一

stable-diffusion原理

顶层核心

VAE

编码器(Encoder):VAE的编码器负责将输入的图像数据转换为一个低维的潜在空间表示,这个表示通常是一个概率分布。在Stable Diffusion中,编码器将图像压缩成一个较小的Latent特征向量,这个向量包含了图像的关键信息,并且可以作为U-Net的输入。

解码器(Decoder):VAE的解码器则负责将这个低维的潜在空间表示重新转换回原始的图像数据。在Stable Diffusion中,解码器将Latent特征向量还原成像素级的图像,从而生成新的图像。

U-Net

噪声预测:在反向扩散过程中,U-Net接收噪声图像和文本嵌入作为输入,预测当前步骤中需要去除的噪声分量。这是通过学习噪声的分布和特征来实现的。

条件生成:U-Net利用文本嵌入作为条件信息,确保生成的图像内容与文本描述相匹配。这种条件生成能力使得模型能够根据文本描述生成相应的图像。

逐步去噪:U-Net在多个时间步上迭代工作,每一步都预测并去除一部分噪声,直到图像完全去噪。这个过程是逐步的,每一步都使图像更加清晰。

特征融合:U-Net通过跳跃连接融合不同尺度的特征,这有助于模型在去噪的同时保持图像的细节和结构。

CLIP

CLIP模型的文本编码器能够将文本描述转换为一个向量表示,这个向量捕捉了文本的语义信息。在Stable Diffusion中,文本编码器用于将文本描述转换为可以与图像潜在表示相结合的嵌入向量,从而实现文本到图像的生成。

扩散

训练阶段:

  • 前向扩散:在训练阶段,前向扩散用于生成一系列逐渐增加噪声的图像,这些图像作为训练数据的一部分。模型学习如何从这些噪声图像中预测原始图像,即学习去噪过程。

  • 反向扩散:在训练阶段,模型通过反向扩散学习如何从噪声图像逐步恢复到原始图像。这是通过训练一个神经网络(如UNet)来实现的,网络学习预测每一步去噪过程中需要去除的噪声。

生成阶段(文生图):

  • 在生成阶段,即文本到图像的生成过程中,模型使用反向扩散过程来生成图像。这个过程从随机噪声开始,逐步去除噪声,生成与文本描述相匹配的图像。

  • 前向扩散在生成阶段不直接参与图像生成,但它在训练阶段学习到的去噪模式被用于生成阶段的反向扩散过程中。

专业过程

输入:

  • 文本(prompt)通过文本编码器(Text Encoder)提取出文本嵌入(Text Embeddings),尺寸为77x768。

  • 同时,初始化一个潜在空间(Latent space)的随机高斯噪声矩阵,尺寸为64x64x4,对应512x512分辨率的图像。

生成过程:

  • 将文本嵌入和随机高斯噪声矩阵通过交叉注意力(CrossAttention)机制送入U-Net模型中。

  • 结合调度器算法(Scheduler algorithm),迭代去噪,经过多次迭代后生成去噪后的潜在特征(Latent Feature)。

输出:

  • 将去噪后的潜在特征送入VAE的解码器(Decoder)模块,重建出像素级图像,分辨率为512x512。

通俗过程

文本编码:

  • 首先,文本描述通过一个文本编码器(如CLIP模型中的文本编码器)转换为一个高维向量。这个向量捕捉了文本的语义信息,即文本描述的内容和上下文。

  • CLIP模型是一个多模态模型,它能够将文本和图像映射到同一个嵌入空间中,使得文本和图像可以相互匹配。CLIP的文本编码器通过在大量文本-图像对上进行训练,学习到了丰富的语义表示。

噪声图像:

  • 在文本到图像生成的开始,通常有一个噪声图像,它是通过向量量化或随机采样得到的。这个噪声图像作为生成过程的起点,将通过逆向扩散过程逐步转化为清晰的图像。

结合文本向量和噪声图像:

  • 文本向量和噪声图像被输入到一个生成模型中,通常是扩散模型中的UNet网络。UNet网络能够处理图像数据,并在每一步去噪过程中考虑文本向量提供的语义信息。

  • 在逆向扩散的每一步中,UNet网络不仅预测需要去除的噪声,还根据文本向量调整图像的生成,确保生成的图像与文本描述相匹配。

逆向扩散过程:

  • 逆向扩散是一个逐步去除噪声的过程,每一步都使图像更加清晰,并逐渐接近最终的图像。这个过程是迭代的,每一步都会使用UNet网络来预测和去除噪声。

  • 在每一步中,文本向量都会指导UNet网络的预测,确保生成的图像内容与文本描述一致。这样,即使从完全的噪声开始,模型也能够生成与文本描述相匹配的图像。

生成图像:

  • 经过足够多的迭代步骤后,噪声图像将被完全转化为清晰的图像。这个图像不仅在视觉上与文本描述相匹配,而且在语义上也与文本向量相关联。

模型

  • 在Stable diffusion中,模型主要分为五大类,分别是Stable diffusion模型、VAE模型、Lora模型、Embedding模型以及Hypernetwork模型。

  • Lora模型并不能单独使用,它必须与前面的大模型一起使用!LoRA的英文全称为Low-Rank Adaptation of Large Language Models,直译为“大语言模型的低阶适应”。

采样方法(sampler)

  • Euler 是最简单、最快的

  • Euler a 更多样,不同步数可以生产出不同的图片。但是太高步数(>30)效果不会更好。

  • Karras采样:如LMS Karras、DPM2 Karras 等,如果是想生成新颖且质量不错的。

  • UniPC采样:UniPC 效果较好且速度非常快,对平面、卡通的表现较好,推荐使用。

提示词引导系数(CFG Scale)

  • 过高的 CFG Scale 体现为粗犷的线条和过锐化的图像。一般开到 7~11。

  • 这个参数决定了提示词对作图的影响,如果这个值越大,AI就会越严格地按照提示词进行创作;如果这个值越小,AI会越倾向于自由发挥。

Sampling Steps(采样步数)

Stable Diffusion的工作方式是从以随机高斯噪声起步,向符合提示的图像一步步降噪接近。随着步数增多,可以得到对目标更小、更精确的图像。但增加步数也会增加生成图像所需的时间。增加步数的边际收益递减,取决于采样器。一般开到20~30。

随机数种子(seed)

这玩意就好比画画时的线稿,如果你使用了上一张图片的随机数,那么这一次生成的图片大概率与上一张图片不会有太大的偏差。如果随机数种子设置为-1,则表示随机生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470306.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用支付宝沙箱完成商品下单

使用支付宝沙箱完成商品下单 一:效果展示: 二:代码实现 1:准备工作: 申请支付宝沙箱账户: 登录 - 支付宝 然后要下载密钥密钥工具来生成密钥; 2:流程分析: 先是用户…

Linux设置socks代理

公司里绝大多数主机已经禁止外网访问,仅保留一台主机设置socks作为代理服务器。如下为对socks这一概念的学习整理 什么是socks 是OSI模型下会话层的协议,位于表示层与传输层之间,作用是: exchanges network packets between a c…

以往运维岗本人面试真题分享

以下是本人面试运维岗的一些面试经历,在此做个记录分享 目录 TCP/IP三次握手 IPtables IPtables四表五链都是什么? nat端口如何做? 开放本机的80端口该如何做? 如何在单用户模式下引导Centos? nginx轮询模式都有…

【Hadoop实训】Hive 数据操作①

目录 一、准备文件 1、创建表 2、 数据映射 二、HIVE的数据操作 1、基本查询 a、全表查询 b、选择特定字段查询 c、查询员工表总人数 d、查询员工表总工资额 e、查询5条员工表的信息 2、Where条件查询 a、查询工资等于5000的所有员工 b、查询工资在500到1000的员工信息 …

3.5【数据库系统】ER图

2、实体之间的关系 下面主要针对两个实体间的关系进行介绍 (a)一对一联系(1:1)如班级和班长,一个班级只有一个班长,一个班长只能在一个班级任职。 (b)一对多联系(1&#…

笔记 | image may have poor performance,or fail,if run via emulation

在Docker Desktop中现象如图: 当你运行 AMD64 平台代码时(Intel 和 AMD 芯),你的 Mac 必须模拟其CPU架构(因为你自身是ARM)。这通常会非常吃性能。 Docker Desktop 警告你在模拟 Intel/AMD x64 CPU 时性能可…

想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)

各位小伙伴们大家好~ 不知道各位同学在科研过程中是否有这样的苦恼 电脑无显卡。难不成我要用CPU跑实验吗?救救我吧电脑显卡算力太低。训练过程慢慢慢慢慢,等半天都出不来结果电脑显卡显存不够,batchsize稍微高一点点,就要爆显存…

Linux相关习题-gcc-gdb-冯诺依曼

1.将一个test.c文件仅仅进行汇编而不生成可执行程序的命令是? A.gcc -S test.c B.gcc -E test.c C.gcc -c test.c D.gcc test.c gcc常见选项: -c 汇编完成后停止,不进行链接 -E 预处理完成后停止,不进行编译 -S 编译完成后停止…

计算机毕业设计必看必学35755flask旅游景区热度可视化平台原创定制程序,java、PHP、python、小程序、文案全套、毕设成品等

flask旅游景点热度可视化平台 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对旅游景点热度…

Hadoop(环境搭建篇)

这里我用的是ubnatu22.4的系统,请大家严格按照这个系统来安装 一、网络设置 1、打开虚拟机的编辑,并选择虚拟网络编辑器 2、点击更改设置 3、更改IP 二、更改主机名 1、打开终端 2、输入以下命令 hostnamectl set-hostname master 3、然后关闭终端在…

Java 堆内存管理详解:`-Xms` 和 `-Xmx` 参数的使用与默认内存设置

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

Linux探秘坊-------1.系统核心的低语:基础指令的奥秘解析(1)

1.Linux的背景介绍 Linux 操作系统的发展历程充满了激情与创新喵~🎀 萌芽期 (1983 - 1991):Linux 的历史可追溯到 1983 年,理查德斯托曼 (Richard Stallman) 发起 GNU 计划,目标是创建一个自由软件操作系统。1987 年发…

AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)

一、NLP 的基本概念与任务 (一)自然语言处理的研究对象 自然语言处理(NLP)处于计算机科学、人工智能和语言学的交叉领域。它所聚焦的人类社会语言信息是无比丰富和复杂的,包括口语、书面语等各种形式。这种语言信息在…

使用CubeMX一键配置Freertos

一、配置参数 1.1 API信息 1.2 版本信息 版本信息 FreeRTOS版本为10.3.1 CMSIS-RTOS 版本为2.00 如果我们不用CubeMX配置的话 还是推荐移植正点原子的,因为它的裁剪头文件比较清晰 就是那个conf的头文件,一键配置的话很方便。可能会跟原版移植的Freert…

如何提高自动驾驶中惯性和卫星组合导航pbox的精度?

Mems纯惯导里程推算精度做到千分之一,两分钟航向精度保持0.001弧度,是如何做到的? 【飞迪sigma车规高精度组合导航系统在3.6km长隧道下穿测试,135s纯惯导航向保持精度小于0.06度,隧道内转弯轨迹和直线航位推算重合#智能…

10款PDF翻译工具的探索之旅:我的使用经历与工具特色!!

在如今的时代,PDF文件已经成为我们工作、学习和生活中不可或缺的一部分。但是,当遇到一些非母语或陌生语言的PDF文档时,这要怎么办呀!这时候翻译工具就显得尤为重要了。这也是我所遇到过的难题,现在我将与大家分享几款…

MySQL_第13章_视图

1. 常见的数据库对象 2. 视图概述 2.1 为什么使用视图? 视图一方面可以使用表的一部分而不是所有的表,另一方面也可以针对不同的用户制定不同的查询视图。 2.2 视图的理解 视图是一种虚拟表,本身是不具有数据的,占用很少的内存…

【测试框架篇】单元测试框架pytest(1):环境安装和配置

一、pytest简介 Pytest是Python的一种单元测试框架,与Python自带的unittest测试框架类似,但是比 unittest框架使用起来更简洁,效率更高。 二、pytest特点 Pytest是一个非常成熟的Python测试框架,主要特点有以下几点: 非常容易…

Camera Tuning中AE/AWB/AF基础知识介绍

3A定义 3A是Camera ISP控制算法的一个重要组成部分,通常分为自动曝光(AE)、自动聚焦(AF)、自动白平衡(AWB)三个组件。 自动曝光(Auto Exposure) AE基本概念 曝光概念…

group_concat配置影响程序出bug

在 ThinkPHP 5 中,想要临时修改 MySQL 数据库的 group_concat_max_len 参数,可以使用 原生 SQL 执行 来修改该值。你可以通过 Db 类来执行 SQL 语句,从而修改会话(Session)级别的变量。 步骤 设置 group_concat_max_l…