SD3发布,送你3个ComfyUI工作流

大家好,我是每天分享AI应用的萤火君!

这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3(简称SD3)的发布。SD3是一个多模态的 Diffusion Transformer 模型,其在图像质量、排版、复杂提示理解和资源效率方面具有显著提升。

废话不多说,先给大家看看我使用SD3生成的几张图片:

SD3介绍

SD3是一个多模态的 Diffusion Transformer 模型,这个模型有什么特点呢?这里给大家简单拆解下:

多模态:这个词大家可能比较陌生,不过也很简单,就是一个模型中有多个子模型,它们分别处理不同方面的任务,让模型的整体能力更强。在SD3内部,模型先将文本和图像分为两个子模型,然后在后续的处理中又把它们连接起来。通过这种方法,允许图像和文本令牌之间的信息流动,以改善生成输出的整体理解和排版。

Diffusion:这个大家可能都很熟悉了,SD这个名字中就包含它。扩散模型的训练过程是先向图片中增加噪音,噪音可以看作图片中的小雪花,一张完全噪音图可以看作为没有信号时的电视画面,然后扩散模型再学习根据文本提示词逐步去除噪音、还原图片。添加噪音的过程就是扩散(Diffusion,逐步将图片转换为完全噪音图),根据提示词将噪音图还原为图片的过程称为反向扩散(从完全噪音图生成出目标图像)。我们生成图片的过程是其中的反向扩散。

Transformer:自从OpenAI给大家展示了Sora的惊艳效果后,各种AI模型都开始向 Transformer 这一架构靠近。Transformer 这一架构最初用在自然语言翻译上,后来在大语言模型(GPT、LLama等)上取得了巨大的成功,通过它进行的机器学习效果都不错。所以SD也从之前使用的UNet架构迁移到了Transformer架构。

这几个名词有一些简称,为了方便大家识别,这里也简单说明下:

  • Diffusion Transformer 简称为 DiT。
  • Multimodal Diffusion Transformer 简称为 MMDiT,其中 Multimodal 是多模态的意思。

使用SD3 Medium

本次发布,Stability AI只公开了SD3的一个中等版本(sd3_medium),参数量是2B,也就是20亿参数,所谓中等就是模型的参数量不上不下,Stability AI 还有个更大的8B模型没有公开发布。

目前(2024年6月20日)开源的UI工具中只有ComfyUI正式支持了SD3,Stable Diffusion WebUI还没有正式放出(有一个开发版本,建议再等等)。所以我这里将以ComfyUI为例,讲解SD3的使用方法。

安装 ComfyUI

之前我专门写过一篇文章介绍ComfyUI的安装方法,不过自己安装 ComfyUI 有几个拦路虎:

  • 特殊网络设置,很多AI程序和模型都在外网,访问不便。
  • 12G显存以上的Nvidia显卡,N卡轻者数千,重者数万。
  • 一定的电脑动手能力,需要执行命令,解决一些程序冲突。

如果你能满足这三个条件,请看我这篇文章:ComfyUI 完全入门:安装部署从解放生产力以及工业化批量生产的角度看,ComfyUI 具备更广阔的应用前景,因此从这篇文章开始,我将开始介绍一些 ComfyUI 的概念和使用方法,让大家更快的掌握 ComfyUI 的使用技巧,创作出自己独特的艺术作品。icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzkxNTUxNjU2OQ==&mid=2247484951&idx=1&sn=640080a52a6edaceb48fe3b888dfe82f&chksm=c15cbbe1f62b32f729b60aa6b1245002c9ac26959d8c57247674e41e05d2fe2c09639798427b&token=227908773&lang=zh_CN#rd

使用云环境镜像

通过云环境,我们可以先低成本的试用测试,然后再做决定。

这里给大家推荐两个我经常使用的云平台:

  • AutoDL:AutoDL有丰富的GPU显卡类型,出道的比较早,价格也很公道,相比阿里云、腾讯云,简直实惠的不得了,更有大量的社区镜像可以使用。
  • 京东云:目前京东云的GPU服务器全网价格最低(东哥豪气),更有免费代金券可以领取,机不可失。领取代金券,请发消息 “京东云” 到公众号 “萤火遛AI”。

我在这两个云平台都发布了ComfyUI的镜像,内置了常用的工作流,大家可以一键启动,直接使用,不用费劲吧啦的各种安装调测。最新版本的镜像已经内置SD3工作流,平台正在审核中,大家可以及时关注。

两个云服务器的使用方法请看这里的介绍:

云环境使用ComfyUI:一键开启,无需安装部署、无需特殊网络、无需懂技术云环境使用ComfyUI:一键开启,无需安装部署、无需特殊网络、无需懂技术。为了让大家能够快速上手ComfyUI,我在云平台上创建了一些镜像,无需安装,一键开启,浏览器直接打开,欢迎大家测试使用。以下是我目前开通的云平台。icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzkxNTUxNjU2OQ==&mid=2247485167&idx=2&sn=a43586bdc4ef76e7f5a1c394410b8c64&chksm=c15cbb19f62b320f88d5279e7c8e4e116f684a1cf4d1e5671e112618b9e35f2d7c811b769035#rd

使用中如果遇到问题,可以直接向我反馈!

下载 SD3 Medium模型

目前SD3的模型发布在Huggingface网站:

https://huggingface.co/stabilityai/stable-diffusion-3-medium

访问不了外网的同学可以发消息“SD3”到公/众\号“萤火遛AI”,即可获取。

这里简单介绍下其中的几个模型文件:

  • sd3_medium.safetensors 包括 MMDiT 和 VAE 模型,但不包括任何文本编码器。
  • sd3_medium_incl_clips_t5xxlfp16.safetensors 包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本,文件在15G左右,性能表现最佳,一般使用这个就好了。
  • sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间提供平衡,文件大概10G左右,电脑跑不起来fp16版本,可以用这个。
  • sd3_medium_incl_clips.safetensors 包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但因为没有 T5XXL 文本编码器,模型的性能会有所降低。
  • text_encoders 文件夹包含三个文本编码器,以方便用户单独使用。

这里有几个名词,我再解释一下:

VAE:因为扩散模型内部使用了一个压缩空间进行图片的生成,这样使用计算资源会少很多很多,但是生成出来的图片数据不是我们可见的图片数据格式,需要进行解码,VAE就是用来干这件事的。

文本编码器:首先计算机内部都是各种数字,AI模型内部也是各种数字参数。我们使用文本生成图片时,首先要把文本进行编码,转换为AI模型内部可以识别的信息,文本编码器就是来干这个事的。不同的模型可能搭配不同的文本编码器。

fp16、fp8:参数的数值精度,AI模型内部大部分都是数字参数,为了节省空间,在计算机内部这些数字通常使用浮点数来表示。精度越高,表示越精确,但是占用的空间也越大。一般采用fp16,但是如果文件体积过大,对空间使用比较敏感,fp8也可以接受。

在ComfyUI中使用SD3

SD3的使用很简单,我这里给大家贴出来一个最简单的SD3工作流:

除了选择的模型是 sd3 medium 之外,这个工作流和我们之前使用的SDXL、SD1.5的工作流并没有什么差别。

可能有些同学刚开始接触ComfyUI,我这里对其中的节点做一个简单的介绍。

Checkpoint加载器:加载SD基础模型,SD基础模型中一般会包含三个部分:扩散模型、文本编码器、潜空间数据解码器,对应到这个节点的三个输出:模型、CLIP和VAE。

CLIP文本编码器:这里有两个文本编码器,分别用来编码正向提示词和反向提示词,也就是画面中希望出现的内容和不希望出现的内容。他们都连接到“Checkpoint加载器”的CLIP输出点,因为我现在使用的这个SD3基础模型包含了一个文本编码器。有些SD3的基础模型可能不包含文本编码器,我们就需要使用单独的文本编码器加载节点。

K采样器:扩散模型生成图片的过程就是不断的去噪音采样,在采样的过程中,它需要依赖一个模型、采样条件(也就是要生成什么,来自提示词编码结果)、一个潜空间,然后这里边还有一些采样的参数,比如采样步数、采样器、噪音调度器、降噪幅度、CFG(提示词引导系数)等。关于这些参数的详细说明、Stable Diffusion的各种基础知识,以及SD实战技法可以看我的SD全面实战教程:小报童

另外我还测试了SD3的其它两个工作流(下载方式见文末):

一是放大图片(不是单纯的放大,让细节更为完美):

二是优化面部皮肤(SD3生成人物的面部过于光滑,不够真实):

资源下载

为了方便大家入门,我整理了一批ComfyUI工作流,包括基本的文生图、图生图、ControlNet的使用、图像的处理、视频的处理等等,当然还有最近发布的SD3,发消息“工作流”到公众号“萤火遛AI”,即可领取。

另外,我创建了一个AI绘画专栏,加入专栏,可以零门槛,全面系统的学习 Stable Diffusion 创作,让灵感轻松落地!如有需要请点击链接或下方扫码进入:SD全面实战icon-default.png?t=N7T8https://xiaobot.net/post/03340243-9df6-4ea0-bad6-9911a5034bd6


以上就是本文的主要内容。

用好 ComfyUI:

  • 首先需要对 Stable Diffusion 的基本概念有清晰的理解,熟悉 ComfyUI 的基本使用方式;
  • 然后需要在实践过程中不断尝试、不断加深理解,逐步掌握各类节点的能力和使用方法,提升综合运用各类节点进行创作的能力。

我将在后续文章中持续输出 ComfyUI 的相关知识和热门作品的工作流,帮助大家更快的掌握 ComfyUI,创作出满足自己需求的高质量作品。

请及时关注,以免错过重要信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355384.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机考研|408第二轮复习是二刷王道还是先看强化课?

在基础复习完一轮后,大部分人会把前面的内容忘掉很多!这个时候不要着急进入强化,在强化阶段之前先把4本书再重新整理复习一遍,查缺补漏。然后再看王道强化课! 对于408这门具有大量知识需要学习的专业课,有…

【深度学习】智能手写数字识别系统

文章目录 一.实验课题背景说明1.1实验目的1.2实验环境1.2.1安装PyTorch1.2.2安装其他必要的库 二.模型说明2.1模型概述2.2模型结构 三.数据说明3.1 输入数据3.1.1输入数据特征3.1.2输入数据维度3.1.3输入数据预处理 3.2 数据格式3.2.1输出数据…

如何调用讯飞星火认知大模型的API以利用其卓越功能

摘要 讯飞星火认知大模型,作为科大讯飞精心打造的一款人工智能模型,在自然语言理解和生成方面展现出了卓越的能力。这款模型通过深度学习技术和大量数据的训练,具备了强大的语言理解、文本生成和对话交互等功能。 一、模型功能概述 讯飞星…

linux端口被占用 关闭端口

系列文章目录 文章目录 系列文章目录一、linux端口被占用 关闭端口1.参考链接2.具体命令 二、【linux关闭进程命令】fuser -k 和 kill -9 的区别1.参考链接2.具体命令 一、linux端口被占用 关闭端口 1.参考链接 linux端口被占用 关闭端口 2.具体命令 1.查看端口是否被占用 …

商超仓库管理系统

摘要 随着全球经济和互联网技术的快速发展,依靠互联网技术的各种管理系统逐渐应用到社会的方方面面。各行业的有识之士都逐渐开始意识到过去传统的人工管理模式已经逐渐成为企业发展的绊脚石,不再适应现代企业的发展需要。企业想要得到更好的发展&#…

FreeRtos-13资源管理

一、临界资源是什么 要独占式地访问临界资源,有3种方法: 1.公平竞争:比如使用互斥量,谁先获得互斥量谁就访问临界资源,这部分内容前面讲过。 谁要跟我抢,我就灭掉谁: 2.中断要跟我抢?我屏蔽中断 3.其他任务要跟我抢?我禁止调度器,不运行任务切换 二、暂停调度器…

【C语言】自定义类型

目录 一、结构体: 1、结构体的声明: 2、结构体的自引用: 3、结构体变量的定义和初始化: 4、结构体内存对齐: 5、结构体传参: 6、位段: 二、枚举类型: 三、联合体&#xff1a…

网络安全:什么是SQL注入

文章目录 网络安全:什么是SQL注入引言SQL注入简介工作原理示例代码 攻击类型为什么SQL注入危险结语 网络安全:什么是SQL注入 引言 在数字化时代,数据安全成为了企业和个人最关心的问题之一。SQL注入(SQL Injection)是…

【LLM之RAG】RAT论文阅读笔记

研究背景 近年来,大型语言模型(LLMs)在各种自然语言推理任务上取得了显著进展,尤其是在结合大规模模型和复杂提示策略(如链式思维提示(CoT))时。然而,LLMs 在推理的事实…

C++的智能指针 RAII

目录 产生原因 RAII思想 C11的智能指针 智能指针的拷贝与赋值 shared_ptr的拷贝构造 shared_ptr的赋值重置 shared_ptr的其它成员函数 weak_ptr 定制删除器 简单实现 产生原因 产生原因:抛异常等原因导致的内存泄漏 int div() {int a, b;cin >> a…

手机usb共享网络电脑没反应的方法

适用于win10电脑,安卓手机上可以 开启usb网络共享选择,如果选择后一直跳,让重复选择usb选项的话,就开启 开发者模式,进到 开发者模式 里设置 默认usb 共享网络 选项 ,就不会一直跳让你选。 1.先用数据线 连…

八大经典排序算法

前言 本片博客主要讲解一下八大排序算法的思想和排序的代码 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:排序_普通young man的博客-CSDN博客 若有问题 评论区见📝 🎉欢迎大家点赞👍收藏⭐文章 目录 …

HTTP详细总结

概念 HyperText Transfer Protocol,超文本传输协议,规定了浏览器和服务器之间数据传输的规则。 特点 基于TCP协议: 面向连接,安全 TCP是一种面向连接的(建立连接之前是需要经过三次握手)、可靠的、基于字节流的传输层通信协议,在…

Linux管道与重定向

管道 是进程通信的方法之一,在Linux中用命令1|命令2的形式表示,将前一个命令的结果作为后续命令的参数进行输入,也有tee管道,可以进行多次筛选,即多次使用|过滤命令。 重定向 文件描述符FD Linux中输入输出分为三种…

C语言变量、指针的内存关系

1. type p ? 表示从内存地址p开始,开辟一段内存,内存大小为类型type规定的字节数,然后把等号右边的值写入到这段内存中。 因此,这块内存起点位置是p,结束是ptype字节数-1。 2. type* p ?表示从内存地址p开始&…

SpingBoot快速入门下

响应HttpServietResponse 介绍 将ResponseBody 加到Controller方法/类上 作用:将方法返回值直接响应,如果返回值是 实体对象/集合,将会自动转JSON格式响应 RestController Controller ResponseBody; 一般响应 统一响应 在实际开发中一般…

Python学习打卡:day11

day11 笔记来源于:黑马程序员python教程,8天python从入门到精通,学python看这套就够了 目录 day1183、自定义 Python 包创建包导入包方式1方式2方式3方式4 84、安装第三方包安装第三方包——pippip的网络优化 安装第三方包——PyCharm 85、…

代码随想录-Day36

452. 用最少数量的箭引爆气球 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂…

基于WPF技术的换热站智能监控系统16--动态数据绑定

1、实现思路 1)实时读取到的数据绑定到前台UI控件上,这个通过MVVM模式实现,同时注意实时读取必须通过任务task异步方式,这就需要读取PLC数据。 2)UI控件的动作,如开或关水泵,必定能够将值写入…

Python | Leetcode Python题解之第169题多数元素

题目: 题解: class Solution:def majorityElement(self, nums: List[int]) -> int:count 0candidate Nonefor num in nums:if count 0:candidate numcount (1 if num candidate else -1)return candidate