Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

news/2024/12/23 21:34:39/文章来源:https://blog.csdn.net/matt45m/article/details/136056132

概述

Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46464 大小，从而极大地降低了计算量。它还利用了潜在表示空间（latent space）上的 Diffusion 过程，进一步降低了计算复杂度，同时也能保证较好的图像生成效果。在消费级GPU 上（8G显存），Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。

然而，对于许多面向消费者的应用来说，每张图像生成需要 4 秒的耗时仍然过长。这时候，TensorRT 就发挥了重要作用。TensorRT 是英伟达（NVIDIA）推出的高性能深度学习推理（inference）库，旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上，实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗，并支持在边缘设备上运行。

TensorRT 提供了许多优化技术，包括网络层融合（layer fusion）、内存优化、精度降级（precision calibration）、量化（quantization）和深度学习模型的裁剪（network pruning）。通过这些技术，TensorRT 可以最大限度地利用 GPU 的并行计算能力，实现深度学习模型的高效执行。

2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT，该插件可以直接在 webui 的 extension 中安装即可，默认支持cuda11.x。

环境配置要求

要使用Stable-Diffusion-WebUI-TensorRT插件加速，有几个重要的前提条件，GPU必须是NVIDIA的（俗称N卡），GPU的显存必须在8G以上，包含8G，GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练，建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5,2.1，SDXL，SDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo，官方推荐使用具有12GB 或更多 VRAM 的 GPU，以获得最佳性能。

在这里插入图片描述
查看GPU驱动版本：

查看内存与显卡型号：

我使用的环境是win10,GPU 3080 10G显存，32G内存，Stable Diffusion用的是秋叶大佬的4.5这个版本。

Stable-Diffusion-WebUI-TensorRT安装

1.安装

启动Stable-Diffusion-WebUI，找到扩展，然后从网址安装TensorRT插件：
插件网址：https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git 在这里插入图片描述
点击安装：

等侍2到10分钟，安装完成：

然后重启Stable-Diffusion-WebUI，就可以看到：
在这里插入图片描述

2.设置

打开设置——>用户界面——>快捷设置列表——>输入"sd_unet",然后保存设置，重载UI：
在这里插入图片描述
重启之后就可以看到多了一个SD Unet的选框了：

3.模型转换

选择要使用的模型，然后打开TensorRT——>TensorRT导出——>选择预设尺寸——>导出引擎:
在这里插入图片描述
关于导出尺寸，这是要设置不用尺寸，但尺寸大小只能是2的幕，这里面导出的模型为onnx模型，如果接触过深度学习的都清楚这个尺寸的含义。

4. 测试推理速度

使用TensorRT推理时，选择的模型与SD Unet要对应，出图的宽度与高度，也要对应上一步导出的模型的尺寸：
在这里插入图片描述

测试出图速度，使用TensorRT出图时，第一张图会很慢，要计算时间可以从第二张开始算，下面出图尺寸是1024*1024：

使用TensorRT推理：
在这里插入图片描述
不使用TensorRT推理，可以看出慢了2点几秒，差不多3秒：

使用TensorRT推理（出图尺寸512*512）：
在这里插入图片描述

不使用TensorRT推理（出图尺寸512*512），可以看出，不使用TensorRT差不多要慢上一倍左右：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/258823.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

美国突然致敬中本聪

美国突然致敬中本聪

作者：秦晋有点看不懂美国的神操作。 2月16日，据《Bitcoin Magazine》报道，比特币的竞争对手、美国参议员伊丽莎白-沃伦对比特币的立场突然180度大转弯。由反对立场转为支持立场。让很多行业媒体出乎意料，甚至惊掉下巴。报道称&a…

阅读更多...

重塑高校评价体系，缓解内卷，培养有远见的研究者

重塑高校评价体系，缓解内卷，培养有远见的研究者

重塑高校评价体系，缓解内卷，培养有远见的研究者摘要：当前高等教育和科研环境中普遍存在的“非升即走”制度，尽管表面上看似激励科研人员努力工作，但实际上反映了学术界的内卷状况。这一制度的设置在人才供过于求的背景…

阅读更多...

mac无法往硬盘里存东西 Mac硬盘读不出来怎么办 Mac硬盘格式硬盘检测工具

mac无法往硬盘里存东西 Mac硬盘读不出来怎么办 Mac硬盘格式硬盘检测工具

mac有时候会出现一些问题，比如无法往硬盘里存东西，或者无法往硬盘上拷贝文件。这些问题会给用户带来很大的困扰，影响正常的工作和学习。那么，mac无法往硬盘里存东西，mac无法往硬盘上拷贝怎么办呢？软妹子将为…

阅读更多...

小苯的数组切分 ---- 牛客月赛

小苯的数组切分 ---- 牛客月赛

题目描述 qionghuaqionghuaqionghua 给了小苯一个长度为 n 的数组 a，希望小苯将数组 aaa 分为恰好非空的三段。即：[1,l−1],[l,r],[r1,n]这三段，其中 1< l≤r<n。接着： ∙ 第一段的所有数字做 ⊕（按位异或&…

阅读更多...

模拟算法.

模拟算法.

1.什么是模拟在信息奥赛中,有一类问题是模拟一个游戏的对弈过程或者模拟一项任务的操作过程.比如乒乓球在比赛中模拟统计记分最终判断输赢的过程等等,这些问题通常很难通过建立数学模型用特定的算法来解决因为它没有一种固定的解法,需要深刻理解出题者对过程的解释一般只能采…

阅读更多...

双指针算法+例题

双指针算法+例题

1、性质双指针算法，实质上是把朴素算法O（n^2),发现一些性质，转换成 O（N）时间复杂度。 2、图解核心思想 3、代码模板 for(int i0,j0;i<n;i) {while(j<i && check(i,j)) j;//每道题目的具体逻辑 } 4…

阅读更多...

【电路笔记】-LR串联电路

【电路笔记】-LR串联电路

LR串联电路文章目录 LR串联电路1、概述2、示例1所有线圈、电感器、扼流圈和变压器都会在其周围产生磁场，由电感与电阻串联组成，形成 LR 串联电路。 1、概述在本节有关电感器的第一个文章中，我们简要介绍了电感器的时间常数，指出流过电感器的电流不会瞬时变化，而是会以恒…

阅读更多...

相机图像质量研究(31)常见问题总结：图像处理对成像的影响--图像差

相机图像质量研究(31)常见问题总结：图像处理对成像的影响--图像差

系列文章目录相机图像质量研究(1)Camera成像流程介绍相机图像质量研究(2)ISP专用平台调优介绍相机图像质量研究(3)图像质量测试介绍相机图像质量研究(4)常见问题总结：光学结构对成像的影响--焦距相机图像质量研究(5)常见问题总结：光学结构对成…

阅读更多...

C++初阶(十一) list

C++初阶(十一) list

一、list的介绍及使用 1.1 list的介绍 list的文档介绍 1. list是可以在常数范围内在任意位置进行插入和删除的序列式容器，并且该容器可以前后双向迭代。 2. list的底层是双向链表结构，双向链表中每个元素存储在互不相关的独立节点中，在节点…

阅读更多...

政安晨：在Jupyter中【示例演绎】Matplotlib的官方指南（二）{Image tutorial}·{Python语言}

政安晨：在Jupyter中【示例演绎】Matplotlib的官方指南（二）{Image tutorial}·{Python语言}

咱们接着上一篇，这次咱们讲使用Matplotlib绘制图像的简短尝试。我的这个系列的上一篇文章在这里： 政安晨：在Jupyter中【示例演绎】Matplotlib的官方指南（一）{Pyplot tutorial}https://blog.csdn.net/snowdenkeke/ar…

阅读更多...

Flex布局简介及微信小程序视图层View详解

Flex布局简介及微信小程序视图层View详解

目录一、Flex布局简介什么是flex布局？ flex属性基本语法和常用属性 Flex 布局技巧二、视图层View View简介微信小程序View视图层 WXML 数据绑定列表渲染条件渲染模板 WXSS 样式导入内联样式选择器全局样式与局部样式 WXS 示例注意事项…

阅读更多...

深入理解lambda表达式

深入理解lambda表达式

深入理解ASP.NET Core中的中间件和Lambda表达式 var builder WebApplication.CreateBuilder(args); var app builder.Build(); app.Use(async (context, next) > { // Add code before request. await next(context);// Add code after request.}); 这段C#代码是用于设…

阅读更多...

论文阅读：GamutMLP A Lightweight MLP for Color Loss Recovery

论文阅读：GamutMLP A Lightweight MLP for Color Loss Recovery

这篇文章是关于色彩恢复的一项工作，发表在 CVPR2023，其中之一的作者是 Michael S. Brown，这个老师是加拿大 York 大学的，也是 ISP 领域的大牛，现在好像也在三星研究院担任兼职，这个老师做了很多这种类似的工…

阅读更多...

C++数据结构与算法——双指针法

C++数据结构与算法——双指针法

C第二阶段——数据结构和算法，之前学过一点点数据结构，当时是基于Python来学习的，现在基于C查漏补缺，尤其是树的部分。这一部分计划一个月，主要利用代码随想录来学习，刷题使用力扣网站，不定时更…

阅读更多...

STM32——OLED菜单

STM32——OLED菜单

文章目录一.补充二. 二级菜单代码简介：首先在我的51 I2C里面有OLED详细讲解，本期代码从51OLED基础上移植过来的，可以先看完那篇文章，在看这个，然后按键我是用的定时器扫描不会堵塞程序,可以翻开我的文章有单独的定时…

阅读更多...

免费chatgpt使用

免费chatgpt使用

基本功能如下： https://go.aigcplus.cc/auth/register?inviteCode3HCULH2UD

阅读更多...

TensorRT转换onnx的Transpose算子遇到的奇怪问题

近来把一个模型导出为onnx并用onnx simplifier化简后转换为TensorRT engine遇到非常奇怪的问题，在我们的网络中有多个检测头时，转换出来的engine的推理效果是正常的，当网络中只有一个检测头时，转换出来的engine的推理效果奇差&…

阅读更多...

OpenCV-42 直方图均匀化

OpenCV-42 直方图均匀化

目录一、直方图均匀化原理二、直方图均匀化在OpenCV中的运用一、直方图均匀化原理直方图均匀化是通过拉伸像素强度的分布范围，使得在0~255灰阶上的分布更加均匀，提高图像的对比度。达到改善图像主管视觉效果的目的。对比度较低的图像适合使用直方…

阅读更多...

Flink理论—容错之状态

Flink理论—容错之状态

Flink理论—容错之状态在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。 Flink 使用…

阅读更多...

HCIA-HarmonyOS设备开发认证V2.0-轻量系统内核基础-互斥锁mux

HCIA-HarmonyOS设备开发认证V2.0-轻量系统内核基础-互斥锁mux

目录一、互斥锁基本概念二、互斥锁运行机制三、互斥锁开发流程四、互斥锁使用说明五、互斥锁接口六、代码分析（待续...） 一、互斥锁基本概念互斥锁又称互斥型信号量，是一种特殊的二值性信号量，用于实现对共享资源的独占式处理。…

阅读更多...

最新文章

推荐文章