Stable Diffusion 3 发布及其重大改进

1. 引言

就在 OpenAI 发布可以生成令人瞠目的视频的 Sora 和谷歌披露支持多达 150 万个Token上下文的 Gemini 1.5 的几天后,Stability AI 最近展示了 Stable Diffusion 3 的预览版。
在这里插入图片描述

闲话少说,我们快来看看吧!

2. 什么是Stable Diffusion 3?

Stable Diffusion 3 Stability AI 最新推出的功能最强大的文本到图像生成的模型。它在处理多文本提示、图像质量甚至文本渲染能力方面都有重大的改进。

目前,该模型套件的参数量从 800M 到 8B 不等。它结合了扩散transformer结构(类似于Sora中的结构)和Flow Matching。

3. Diffusion Transformer Architecture

Diffusion Transformer(DiT)架构代表了一类融合了Transformer技术的新型扩散模型。与通常使用卷积 U-Net 主干网的传统扩散模型不同,DiT 采用Transformer结构对图像的潜在特征表示进行操作。DiT的网络结构如下:
在这里插入图片描述
事实证明,这种架构对于ImageNet等大型数据集上的基于类别条件图像生成任务特别有效,DiTs 在图像质量和生成模型性能方面树立了新的标杆。

4. Flow Matching

Flow Matching (FM)是 一种全新的、无需模拟的连续归一化流量(CNFs)的训练方法,它能以前所未有的规模训练 CNFsFM 的工作原理是对与高斯概率路径(包括扩散路径)兼容的固定条件概率路径向量场进行回归。更多细节,可以读取官方论文。

在这里插入图片描述

这项技术不仅使扩散模型的训练更加稳健,还为使用非扩散概率路径的CNF 进行更快的训练、采样和更好的泛化铺平了道路。

5. SD3新功能

以下是Stable Diffusion 3带来的主要改进:

  • 支持文本渲染
  • 性能提升
  • 多目标提示
  • 更好的图像质量

上述这些改进中,最令人兴奋的功能是它能够渲染文本,类似于 openAI Dall-E 3 和谷歌的Imagen 2Emad Mostaque作为Stability AI的CEO一直在分享使用SD 3 生成的图像,以下是我最喜欢的一些:

Prompt: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”
提示:“一张红色球体放在蓝色立方体上面的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫”。

在这里插入图片描述
我觉得这张照片有趣的一点是,动物的白色皮毛上有微妙的绿色。不确认的是模型是否可以从训练数据中的绿幕电影场景照片中学到了这种效果。

Prompt: “cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk”
提示:"电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着 "要么大干,要么回家 “的字样”

在这里插入图片描述

6. 效果对比

我快速比较了 SD3 和 OpenAI 的Dall-E 3生成的图像的效果,这里我使用了SD3官方博客中的提示词。

Prompt: “Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy”
提示:“史诗般的动漫作品,一个巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着 “稳定扩散 3”,由五彩缤纷的能量组成”

在这里插入图片描述
在这里插入图片描述
老实说,我很惊讶 Dall-E 3 在这个提示下一再拒绝呈现文本。自己去试试吧。

7. 总结

本文重点介绍了SD3带来的新的改进,在此说明下,目前SD3还为对公众开放,但是大家可以通过注册来获得Discord服务器的邀请。预览版的目的是提高其质量和安全性,就像其他稳定的扩散版本一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/265281.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

事件循环解析

浏览器的进程模型 何为进程? 程序运行需要有它自己专属的内存空间,可以把这块内存空间简单的理解为进程 每个应用至少有一个进程,进程之间相互独立,即使要通信,也需要双方同意。 何为线程? 有了进程后&…

SSM项目集成Spring Security 4.X版本 之 加入DWZ,J-UI框架实现登录和主页菜单显示

目录 前言 一、加入DWZ J-UI框架 二、实现登录页面 三、实现主页面菜单显示 前言 大家好!写文章之前先列出几篇相关文章。本文内容也在其项目中接续实现。 一. SSM项目集成Spring Security 4.X版本(使用spring-security.xml 配置文件方式&#xff…

MCU多核异构通信原理

摘要: 本文结合瑞萨RZ/G2L 多核处理器,给大家讲述一下多核异构设计及通信的原理。 随着电子技术的不断发展,以及市场需求的日益增长,嵌入式系统不仅要求执行复杂的控制任务,还需要实时地采集和处理数据。 为了满足这…

python 基础知识点(蓝桥杯python科目个人复习计划51)

今日复习计划:做复习题 例题1:大石头的搬运工 问题描述: 在一款名为“大石头的搬运工”的游戏中,玩家需要 操作一排n堆石头,进行n - 1轮游戏。 每一轮,玩家可以选择一堆石头,并将其移动到任…

使用Node.js开发一个文件上传功能

在现代 Web 应用程序开发中,文件上传是一个非常常见且重要的功能。今天我们将通过 Node.js 来开发一个简单而强大的文件上传功能。使用 Node.js 来处理文件上传可以带来许多好处,包括简单的代码实现、高效的性能和灵活的配置选项。 首先,我们…

【Pytorch深度学习开发实践学习】Pytorch实现LeNet神经网络(1)

1.model.py import torch.nn as nn import torch.nn.functional as F引入pytorch的两个模块 关于这两个模块的作用,可以参考下面 Pytorch官方文档 torch.nn包含了构成计算图的基本模块 torch,nn.function包括了计算图中的各种主要函数,包括&#…

爬虫入门五(Scrapy架构流程介绍、Scrapy目录结构、Scrapy爬取和解析、Settings相关配置、持久化方案)

文章目录 一、Scrapy架构流程介绍二、Scrapy目录结构三、Scrapy爬取和解析Scrapy的一些命令css解析xpath解析 四、Settings相关配置提高爬取效率基础配置增加爬虫的爬取效率 五、持久化数据1.在items中新建类2.在解析中,得到item对象,并且yield3.配置文件…

LabVIEW开发FPGA的高速并行视觉检测系统

LabVIEW开发FPGA的高速并行视觉检测系统 随着智能制造的发展,视觉检测在生产线中扮演着越来越重要的角色,尤其是在质量控制方面。传统的基于PLC的视觉检测系统受限于处理速度和准确性,难以满足当前生产需求的高速和高精度要求。为此&#xf…

Tomcat线程池原理(上篇:初始化原理)

文章目录 前言正文一、从启动脚本开始分析二、ProtocolHandler 的启动原理三、AbstractEndPoint 的启动原理四、创建默认线程池五、参数配置原理5.1 常规的参数配置5.2 自定义线程池5.3 测试自定义线程 前言 在Java Web的开发过程中,Tomcat常用的web容器。SpringBo…

书生·浦语大模型全链路开源体系介绍

背景介绍 随着人工智能技术的迅猛发展,大模型技术已成为当今人工智能领域的热门话题。2022 年 11 月 30 日,美国 OpenAI 公司发布了 ChatGPT 通用型对话系统 并引发了全球 的极大关注,上线仅 60 天月活用户数便超过 1 亿,成为历史…

密码学系列(四)——对称密码2

一、RC4 RC4(Rivest Cipher 4)是一种对称流密码算法,由Ron Rivest于1987年设计。它以其简单性和高速性而闻名,并广泛应用于网络通信和安全协议中。下面是对RC4的详细介绍: 密钥长度: RC4的密钥长度可变&am…

Python爬虫实战入门:爬取360模拟翻译(仅实验)

文章目录 需求所需第三方库requests 实战教程打开网站抓包添加请求头等信息发送请求,解析数据修改翻译内容以及实现中英互译 完整代码 需求 目标网站:https://fanyi.so.com/# 要求:爬取360翻译数据包,实现翻译功能 所需第三方库 …

【OnlyOffice】 桌面应用编辑器,版本8.0已发布,PDF表单、RTL支持、Moodle集成、本地界面主题

ONLYOFFICE桌面编辑器v8.0是一款功能强大、易于使用的办公软件,适用于个人用户、企业团队和教育机构,帮助他们高效地处理文档工作并实现协作。无论是在Windows、macOS还是Linux平台上,ONLYOFFICE都能提供无缝的编辑和共享体验。 目录 ONLYOFF…

Jmeter接口测试+压力测试

Jmeter-http接口脚本 一般分五个步骤:(1)添加线程组 (2)添加http请求 (3)在http请求中写入接入url、路径、请求方式和参数 (4)添加查看结果树 (5)调用接口、…

化学分子Mol2文件格式与使用注意事项

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入 文章目录 前言一、Mol2文件示例二、 Mol2文件主要结构解释及注意事项MOLECULE 字段解释ATOM 字段解释BOND 字段解释SUBSTRUCTURE字段解释 总结参考资料 前言 Mol2格式文件是一个ASCII 文件,由Tripos…

STM32控制max30102读取血氧心率数据(keil5工程)

一、前言 MAX30102是一款由Maxim Integrated推出的低功耗、高精度的心率和血氧饱和度检测传感器模块,适用于可穿戴设备如智能手环、智能手表等健康管理类电子产品。 该传感器主要特性如下: (1)光学测量:MAX30102内置…

Rocky Linux 运维工具yum

一、yum的简介 ​​yum​是用于在基于RPM包管理系统的包管理工具。用户可以通过 ​yum​来搜索、安装、更新和删除软件包,自动处理依赖关系,方便快捷地管理系统上的软件。 二、yum的参数说明 1、install 用于在系统的上安装一个或多个软件包 2、seach 用…

Docker 常用操作命令备忘

Docker 一旦设置好了环境,日常就只要使用简单命令就可以运行和停止。 于是,我每次用的时候,都想不起来一些关键性的命令到底怎么用,特此记录。 一、镜像管理 从公有仓库拉取镜像 (对于使用苹果电脑 M1/M2/M3 芯片的 …

完全分布式运行模式

完全分布式运行模式 分析:之前已经配置完成 ​ 1)准备3台客户机(关闭防火墙、静态ip、主机名称) ​ 2)安装JDK ​ 3)配置环境变量 ​ 4)安装Hadoop ​ 5)配置环境变量 ​ 6&am…

Springboot集成Druid实现监控功能

Druid是阿里巴巴开发的号称为监控而生的数据库连接池,在功能、性能、扩展性方面,都超过其他数据库连接池,包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource等等等,秒杀一切。Druid可以很好的监控DB池连接和SQL的执行情况&#…