Stable Diffusion 3.5 震撼发布!最新开源 AI 图像生成模型,艺术创作必备神器!

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. Stable Diffusion 3.5 是 Stability AI 的最新图像生成模型,包括 Large、Large Turbo 和 Medium 版本。
  2. 模型具有高效性能和可定制性,支持多样化输出和多种风格。
  3. 适用于艺术创作、游戏开发、广告营销等多种应用场景。

正文(附运行示例)

Stable Diffusion 3.5 是什么

在这里插入图片描述

Stable Diffusion 3.5 是 Stability AI 公司最新推出的一系列先进的 AI 图像生成模型,包括 Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo 和即将发布的 Stable Diffusion 3.5 Medium。这些模型以其高度的可定制性、在消费级硬件上的运行能力及在 Stability AI 社区许可证下的免费商业和非商业用途受到广泛关注。

Stable Diffusion 3.5 的主要功能

  • 模型版本多样化:提供 Large、Large Turbo 和 Medium 三种版本,满足不同需求。
  • 高效性能:优化后能在标准消费级硬件上运行,降低使用门槛。
  • 可定制性:灵活的构建基础,便于微调和定制应用。
  • 多样化输出:能生成代表全世界的图像,提升多样性和包容性。
  • 风格多样:支持 3D、摄影、绘画等多种视觉风格。
  • 优化的算法效率:降低对计算资源的需求,提高运行效率。
  • 更好的稳定性和可扩展性:引入 Query-Key Normalization 技术,提升训练稳定性和可扩展性。
  • 高质量的提示词理解:更准确地理解提示词并生成匹配图像。

Stable Diffusion 3.5 的技术原理

  • 文本到图像的生成:利用深度学习模型,特别是变分自编码器(VAE)和生成对抗网络(GAN),将文本提示转换成图像。
  • 多模态学习:结合文本编码器(如 OpenAI CLIP-L/14、OpenCLIP bigG、Google T5-XXL)理解文本提示。
  • MM-DiT:核心是一个全新的多模态扩散变换器,用于生成图像。
  • 优化的架构:基于改进的 MMDiT-X 架构和训练方法,优化图像质量和生成速度。
  • 定制和微调:使用 Query-Key Normalization,简化微调过程。

如何运行 Stable Diffusion 3.5

安装

python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
python3 -s -m pip install -r requirements.txt

运行

# 生成一只猫的图像
python3 sd3_infer.py --prompt "cute wallpaper art of a cat"
# 使用文本文件中的提示词列表
python3 sd3_infer.py --prompt path/to/my_prompts.txt
# 使用SD3.5 Large Turbo模型
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# 使用SD3 Medium模型
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors

文件指南

  • sd3_infer.py:入口文件,用于基本的使用。
  • sd3_impls.py:包含 MMDiTX 和 VAE 的封装。
  • other_impls.py:包含 CLIP 模型、T5 模型和一些工具。
  • mmditx.py:包含 MMDiT-X 的核心代码。
  • models文件夹:包含所需的模型文件。

资源

  • Stability AI SD3.5 Large:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors
  • Stability AI SD3.5 Large Turbo:https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo/blob/main/sd3.5_large_turbo.safetensors
  • OpenAI CLIP-L:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/text_encoders/clip_l.safetensors
  • OpenCLIP bigG:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/text_encoders/clip_g.safetensors
  • Google T5-XXL:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/text_encoders/t5xxl_fp16.safetensors

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455364.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NOIP普及组】 装箱问题

【NOIP普及组】 装箱问题 💐The Begin💐点点关注,收藏不迷路💐 有一个箱子容量为V(正整数,0<=V<=20000),同时有n个物品(0&…

KubeSphere 最佳实战:Kubernetes 部署集群模式 Nacos 实战指南

Nacos 是 Dynamic Naming and Configuration Service 的首字母简称,一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos 是构建以服务为中心的现代应用架构 (例如微服务范式、云原生范式) 的服务基础设施。 在本文中,我将为您提供…

k8s备份恢复(velero)

velero简介 velero官网: https://velero.io/ velero-github: https://github.com/vmware-tanzu/velero velero的特性 备份可以按集群资源的子集,按命名空间、资源类型标签选择器进行过滤,从而为备份和恢复的内容提供高度的灵活…

怎么在线制作拼团活动

在这个快节奏的时代,我们总在寻找那份独特的购物乐趣与超值体验。传统购物模式已难以满足日益增长的个性化与性价比需求,而在线购物虽便捷,却常让人在琳琅满目的商品中迷失方向。正是在这样的背景下,一种全新的购物方式——“在线…

vue3处理货名的拼接

摘要: 货品的拼接规则是:【品牌】货名称/假如货品名称为空时,直接选择品牌为【品牌】赋值给货品,再选择品牌,会替换【品牌】;假如货名称为【品牌】名称,再选择品牌只会替换【品牌】,…

vue3项目页面实现echarts图表渐变色的动态配置

完整代码可点击vue3项目页面实现echarts图表渐变色的动态配置-星林社区 https://www.jl1mall.com/forum/PostDetail?postId202410151031000091552查看 一、背景 在开发可配置业务平台时,需要实现让用户对项目内echarts图表的动态配置,让用户脱离代码也…

2024下半年软考机考模拟系统已开放!小伙伴们速速练起来

千呼万唤使出来,软考机考的模拟练习系统已于10月23号正式开放! 今年报名计算机技术与软件专业技术资格(水平)考试(软考)的小伙伴们千万不要忘记哦! 01、开放时间 据中国计算机技术职业资格网发…

基于AI识别数据的Vue.js图像框选标注

在数字化时代,图像识别技术的应用越来越广泛,尤其是在车牌识别、人脸识别等领域。本文将介绍如何使用Vue.js框架和JavaScript创建一个交互式组件,该组件不仅允许用户在图片上绘制多个区域,加载文字,还提供了清空功能。…

外包干了2个月,技术明显退步

回望过去,我是一名普通的本科生,于2019年通过校招有幸加入了南京某知名软件公司。那时的我,满怀着对未来的憧憬和热情,投入到了功能测试的岗位中。日复一日,年复一年,转眼间,我已经在这个岗位上…

常用shell指令

这些指令通常在adb shell环境中使用,或者通过其他方式(如SSH)直接在设备的shell中使用。 文件操作命令 ls:列出目录的内容 ls /sdcard cd:改变目录 cd /sdcard/Download pwd:打印当前工作目录 pwd cat&…

CV2通过一组轮廓点扣取图片

代码如下: import cv2 import numpy as np# 读取原始图像 original_image cv2.imread(img.png)# 定义一组轮廓点(这里只是示例,你需要根据实际情况替换) points np.array([[50, 100], [100, 200], [200, 150], [200, 50], [160…

负载均衡服务器攻击怎么解决最有效?

负载均衡服务器攻击怎么解决最有效?常见的有效解决方法包括:使用SYNCookie机制、限制ICMP包速率、基于源IP的连接速率限制、检测并丢弃异常IP包、配置访问控制列表(ACL)、设置虚拟服务器/服务器连接数量限制、设置HTTP并发请求限制…

【景观生态学实验】实验二 景观类型分类

实验目的 1.掌握ArcGIS软件的基本操作:通过课堂理论学习与实验课的实际动手操作,学习并熟练掌握如何利用ArcGIS软件对遥感影像进行一些较为基础的数据处理与分析工作,具体包括波段合成、图像镶嵌、图像裁剪与图像分类等; 2.熟悉…

基于STM32设计的养殖场环境监测系统(华为云IOT)

文章目录 一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成【4】需求总结 1.2 设计思路1.3 系统功能总结1.4 开发工具的选择【1】设备端开发【2】上位机开发 二、部署华为云物联网平台2.1 物联网平台介绍2.2 开通物联网服务2.3 创建产品&#x…

微信小程序-获取头像和昵称

一.获取头像 1.将button组件open-type的值设置为chooseAvatar 2.通过bindchooseavatar事件回调获取到头像信息的临时路径 wxml文件代码&#xff1a; <view> <button class"btn" open-type"chooseAvatar" bindchooseavatar"chooseavatar&qu…

生成式人工智能

这个接龙的生成就是概率式的&#xff0c;下一个接龙的字是有概率的 本身就是在做文字接龙的游戏&#xff0c;不会搜索网上的资料

Zig语言通用代码生成器:逻辑,冒烟测试版发布

#1024程序员节 | 征文# Zig语言通用代码生成器&#xff1a;逻辑&#xff0c;冒烟测试版发布 Zig语言是一种新的系统编程语言&#xff0c;其生态位类同与C&#xff0c;是前一段时间大热的rust语言的竞品。它某种意义上的确非常像rust&#xff0c;尤其是在开发过程中无穷无尽抛错…

【哈工大_操作系统理论】L282930 生磁盘的使用从生磁盘到文件文件使用磁盘的实现

L4.3 生磁盘的使用 1、认识磁盘 选择磁道旋转扇区数据读写 哪一个柱面 C哪一个磁头 H哪一个扇区 S 2、第一层抽象&#xff1a;盘块号block 发送盘块号block&#xff0c;磁盘驱动根据 block 计算出 cyl、head、sec&#xff08;CHS&#xff09; 磁盘访问时间主要是寻道时间…

精准布局:探索CSS中的盒子固定定位的魅力

一、概念 固定定位使元素相对于浏览器窗口进行定位&#xff0c;无论网页如何滚动&#xff0c;固定定位的元素也会保持在相同的位置&#xff0c;设置固定定位的元素脱离文档流。 二、语法结构 <style>选择器{/* fixed 固定定位 */position: fixed;}</style> 与绝…

LeetCode练习-删除链表的第n个结节

大家好&#xff0c;依旧是你们的萧萧啊。 今天我们来练习一个经典的链表问题&#xff1a;删除链表的第n个节点。在这篇文章中&#xff0c;我们将深入分析这个问题&#xff0c;并给出一个有效的解决方案。 问题描述 给定一个链表&#xff0c;要求删除链表的倒数第n个节点&…