新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

几个使用Stable Diffusion XL 1.0生成的图像示例。
几个使用Stable Diffusion XL 1.0生成的图像示例。

新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。

周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述生成新颖的图像,并生成比之前版本的Stable Diffusion更多细节和更高分辨率的图像。

就像稳定扩散1.4版一样,在去年8月份发布开源版本后引起轰动一样,任何具备适当硬件和技术知识的人都可以免费下载SDXL文件并在自己的机器上本地运行该模型。

本地操作意味着不需要支付访问SDXL模型的费用,几乎没有审查问题,未来业余爱好者可以微调权重文件(包含使模型功能的中性网络数据),以生成特定类型的图像。

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像。

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像。

升级引擎

与其他潜在扩散图像生成器一样,SDXL从随机噪声开始,并根据文本提示的指导“识别”噪声中的图像,并逐步完善图像。但根据Stability的说法,SDXL利用了一个“三倍大的UNet骨干”,比早期的Stable Diffusion模型具有更多的模型参数来完成其技巧。简而言之,这意味着SDXL架构会进行更多的处理来得到最终的图像。

为了生成图像,SDXL利用了一个“专家组合”架构,指导了一个潜在扩散过程。专家组合是指一种方法,其中一个初始单一模型被训练,然后分成专门为不同阶段的生成过程训练的专业模型,从而提高图像质量。在这种情况下,有一个基本的SDXL模型和一个可选的“精炼器”模型,可以在初始生成后运行,使图像看起来更好。

Table Diffusion XL 包含两个可组合的文本编码器。在 Xander Steenbrugge 的这个例子中,大象和章鱼无缝地组合成一个概念
Table Diffusion XL 包含两个可组合的文本编码器。在 Xander Steenbrugge 的这个例子中,大象和章鱼无缝地组合成一个概念。

值得注意的是,SDXL还使用了两种不同的文本编码器来理解书面提示,从而帮助确定模型权重中编码的相关图像。用户可以为每个编码器提供不同的提示,从而产生新颖、高质量的概念组合。

然后,图像细节和尺寸方面有所改进。 虽然 Stable Diffusion 1.5 是在 512×512 像素图像上进行训练的(使之成为最佳的生成图像大小,但缺少小型特征的细节),但 Stable Diffusion 2.x 将其增加到了 768×768。 现在,Stability AI 建议使用 Stable Diffusion XL 生成 1024×1024 像素图像,比 SD 1.5 生成的大小相似的图片具有更高的细节。

本地控制,开放的理念

我们下载了Stable Diffusion XL 1.0模型,并在Windows机器上使用12GB VRAM的RTX 3060 GPU本地运行它。像ComfyUI和AUTOMATIC1111的Stable Diffusion Web UI这样的接口使得这个过程比去年Stable Diffusion首次推出时更加用户友好,但仍需要一些技术调整才能使其正常工作。如果您想尝试它,本教程可以给您指明方向。

总的来说,我们看到了具有梦幻般质量的图像生成,更多地倾向于商业AI图像生成器Midjourney的风格。正如上面提到的那样,SDXL通过提供更大的图像尺寸和更多的细节而闪耀。它似乎也会更忠实地遵循提示,尽管这是可以争议的。

其他值得注意的改进包括比以前的SD模型更好地渲染手部,并且它更擅长在图像中渲染文本。但是,与早期模型一样,生成高质量的图像仍然像拉一个老虎机的杆子一样,希望得到好的结果。专家们发现,仔细提示(以及大量的试错)是获得更好结果的关键。

   使用SDXL 1.0生成的“人手”AI图像。
使用SDXL 1.0生成的“人手”AI图像

在消费级硬件上本地运行时,SDXL也存在缺点,例如比Stable Diffusion 1.x 和 2.x需要更高的内存要求和更慢的生成时间。(在我们的测试平台上,以20个步骤,欧拉祖先,CFG 8渲染一个1024x1024的图像,SD 1.5花费23.3秒,而SDXL 1.0花费了26.4秒。所得到的SDXL图像比SD 1.5图像少了一些重复元素。)

到目前为止,SD模型制作爱好者似乎对缺乏精细调校的LoRA感到遗憾,这些LoRA适用于SD 1.5风格的模型,可以提升美感(比如3D渲染风格)或某些场景的更详细的背景,但他们预计社区很快就会填补这些空白。

在稳定扩散中,社区是关键,因为该模型可以在本地运行而不需要监督。这对于利用该软件制作有趣艺术品的业余合成器群体来说是一种福利。但这也意味着该软件可以用来创建深度伪造、色情以及虚假信息。对于Stability AI来说,一些负面方面和开放性之间的权衡是值得的。

在本月早些时候发布在arXiv上的SDXL技术报告中,Stability抱怨称,“黑匣子”模型(如OpenAI的DALL-E和Midjourney)不允许用户下载权重,“使得评估这些模型的偏见和局限性在公正客观的方式下变得具有挑战性。”他们进一步声称,这些模型的封闭性“阻碍了可重复性,扼杀了创新,并防止社区在这些模型基础上进行进一步的科学和艺术进步。”

这种理想主义可能对那些感到被威胁的艺术家来说并没有多大的安慰,因为技术利用艺术家的作品碎片来训练像SDXL这样的模型,而未经允许,这不会解决版权诉讼的问题。但即便如此,尽管图像合成技术存在道德问题,它仍在朝着前方不断发展,这正是Stable Diffusion爱好者所希望的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/73362.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32CUBUMX配置RS485 modbus STM32(从机)亲测可用

———————————————————————————————————— ⏩ 大家好哇!我是小光,嵌入式爱好者,一个想要成为系统架构师的大三学生。 ⏩最近在开发一个STM32H723ZGT6的板子,使用STM32CUBEMX做了很多驱动&#x…

【VUE】解决图片视频加载缓慢/首屏加载白屏的问题

1 问题描述 在 Vue3 项目中,有时候会出现图片视频加载缓慢、首屏加载白屏的问题 2 原因分析 通常是由以下原因导致的: 图片或视频格式不当:如果图片或视频格式选择不当,比如选择了无损压缩格式,可能会导致文件大小过大…

青蛙过河 [递推法]

青蛙过河 [递推法] 题目描述输入输出样例输入样例输出样例 递推解答A C 代码 题目描述 有一条河,左边一个石墩( A A A区)上有编号为 1 , 2 , 3 , 4 , … , n 1,2,3,4&am…

Django实现音乐网站 ⑵

使用Python Django框架制作一个音乐网站,在系列文章1的基础上继续开发,本篇主要是后台歌手表模块开发。 目录 表结构设计 歌手表(singer)结构 创建表模型 设置图片上传路径 创建上传文件目录 生成表迁移 执行创建表 后台管…

刷题笔记 day5

力扣 202 快乐数 首先来分析什么样的数是快乐数, 解题思路: 1)定义快慢指针 ; 2)快指针走两步,慢指针走一步 ;3)两个指针相遇时判断相遇的数值是否为1。 怎样处理 取各分位数的平…

软考A计划-系统集成项目管理工程师-信息文档和配置管理-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者 专注于Android/Unity和各种游…

【计算机视觉中的 GAN 】如何稳定GAN训练(3)

一、说明 在上一篇文章中,我们达到了理解未配对图像到图像翻译的地步。尽管如此,在实现自己的超酷深度GAN模型之前,您必须了解一些非常重要的概念。如本文所提的GAN模型新成员的引入:Wasserstein distance,boundary eq…

四、JVM-对象内存模型

Java对象内存模型 一个Java对象在内存中包括3个部分:对象头、实例数据和对齐填充 数据 内存 – CPU 寄存器 -127 补码 10000001 - 11111111 32位的处理器 一次能够去处理32个二进制位 4字节的数据 64位操作系统 8字节 2的64次方的寻址空间 指针压缩技术 JDK1.6出…

尝试多数据表 sqlite

C 唯一值得骄傲的地方就是 通过指针来回寻址 😂 提高使用的灵活性 小脚本buff 加成

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

文章目录 一、检测相关(5篇)1.1 TALL: Thumbnail Layout for Deepfake Video Detection1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Vi…

从录取成绩的角度来看,浙大MPA面试的客观公正性是有一定依据的

时间即将来到八月份!不知道目前考生们今年的备考情况怎么样了,度过比较煎熬的三伏天,距离考研冲刺的时间越来越近! 提前批面试申请对于不同的项目以及不同的考生意义都不一样。比如真正的学霸人物对于提面的申请与不申请一般差别不…

关于K8s的Pod的详解(一)

关于K8s的Pod的详解(一) Pod和API server的通信加快Pod启动更改Pod的资源Pod 的持久卷的单个访问模式Pod 拓扑分布约束Pod 拓扑分布中的最小域数 Pod 作为k8s创建,调度,管理的基本单位。由上级的Controller对Node上安装的Kubelet发…

Pytorch深度学习之余弦退火学习率设置

1. 什么是余弦退火学习率? 余弦退火学习速率调度是改进深度神经网络学习过程的常用方法。当深度神经网络在大型数据集上训练时,它尤其有用,因为在大型数据集中,学习过程可能会陷入局部极小值。在训练过程中,学习率以不…

MongoDB文档--架构体系

阿丹: 在开始学习先了解以及目标知识的架构体系。就能事半功倍。 架构体系 MongoDB的架构体系由以下几部分组成: 存储结构:MongoDB采用文档型存储结构,一个数据库包含多个集合,一个集合包含多个文档。存储形式&#…

C语言假期作业 DAY 01

题目 1.选择题 1、执行下面程序,正确的输出是( ) int x5,y7; void swap() { int z; zx; xy; yz; } int main() { int x3,y8; swap(); printf("%d,%d\n",x, y)…

ZooKeeper原理剖析

1.ZooKeeper简介 ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能: 帮助系统避免单点故障,建立可靠的应用程序。提供分布式协作服务和维护配置信息。 2.ZooKeeper结构 ZooKeeper集群中的节点分为三种角色:Le…

自动驾驶感知系统-全球卫星定位系统

卫星定位系统 车辆定位是让无人驾驶汽车获取自身确切位置的技术,在自动驾驶技术中定位担负着相当重要的职责。车辆自身定位信息获取的方式多样,涉及多种传感器类型与相关技术。自动驾驶汽车能够持续安全可靠运行的一个关键前提是车辆的定位系统必须实时…

【雕爷学编程】MicroPython动手做(33)——物联网之天气预报3

天气(自然现象) 是指某一个地区距离地表较近的大气层在短时间内的具体状态。而天气现象则是指发生在大气中的各种自然现象,即某瞬时内大气中各种气象要素(如气温、气压、湿度、风、云、雾、雨、闪、雪、霜、雷、雹、霾等&#xff…

STM32基础入门学习笔记:核心板 电路原理与驱动编程

文章目录: 一:LED灯操作 1.LED灯的点亮和熄灭 延迟闪烁 main.c led.c led.h BitAction枚举 2.LED呼吸灯(灯的强弱交替变化) main.c delay.c 3.按键控制LED灯 key.h key.c main.c 二:FLASH读写程序(有…

【雕爷学编程】MicroPython动手做(02)——尝试搭建K210开发板的IDE环境4

7、使用串口工具 (1)连接硬件 连接 Type C 线, 一端电脑一端开发板 查看设备是否已经正确识别: 在 Windows 下可以打开设备管理器来查看 如果没有发现设备, 需要确认有没有装驱动以及接触是否良好 (2&a…