OpenAI开源全新解码器，极大提升Stable Diffusion性能

OpenAI开源全新解码器，极大提升Stable Diffusion性能

news/2024/12/24 1:53:33/文章来源:https://blog.csdn.net/weixin_57291105/article/details/134283929

在11月7日OpenAI的首届开发者大会上，除了推出一系列重磅产品之外，还开源了两款产品，全新解码器Consistency Decoder（一致性解码器）和最新语音识别模型Whisper v3。

据悉，Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像，尤其是在文本、面部和直线方面有大幅度提升。仅上线一天的时间，在Github就收到1100颗星。

Whisper large-v3是OpenAI之前开源的whisper模型的最新版本，在各种语言上的性能都有显著提升。OpenAI会在未来的API计划中提供Whisper v3。

解码器地址：https://github.com/openai/consistencydecoder

Whisper v3地址：https://github.com/openai/whisper
在这里插入图片描述

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成员，所以，「AIGC开放社区」想为大家介绍一下OpenAI之前开源的另一个创新模型——Consistency Models。

扩散模型的出现极大推动了文生图片、视频、音频等领域的发展，涌现了GAN、VAE等知名模型。但是这些模型在推理的过程中，过于依赖迭代采样过程，导致生成效率非常缓慢或生成图片质量太差。

OpenAI为了突破这个技术瓶颈，提出了Consistency Models（一致性模型）框架并将其开源。该技术的最大优势是支持单步高质量生成,同时保留迭代生成的优点。简单来说，可以使文生图模型在推理的过程中又快又准攻守兼备。

此外，Consistency Models可以通过提取预先训练的扩散模型来使用，也可以作为独立的生成模型来训练，兼容性强且灵活。

开源地址：https://github.com/openai/consistency_models

论文：https://arxiv.org/abs/2303.01469

为了让大家更好的理解Consistency Models技术特点，「AIGC开放社区」先简单的介绍一下扩散模型的原理。

在这里插入图片描述

什么是扩散模型

扩散模型主要通过模拟扩散过程来生成数据，核心技术是将数据看作是由一个简单的随机过程（例如，高斯白噪声）经过一系列平滑变换得到的结果。

扩散模型主要由正向过程和反向过程两大块组成。正向过程（扩散过程）：首先将原始数据通过添加噪声逐渐扩散，直到变成无法识别的噪声。

具体来说，每一步都会添加一点噪声，噪声的强度通常会随着步骤的进行而增大。这个过程可以用一个随机微分方程来描述。

在这里插入图片描述

反向过程（去噪声过程）：然后使用一个学习到的模型从噪声数据中重建原始数据。

这个过程通常通过优化一个目标函数来进行，目标是让重建的数据与原始数据尽可能相似。

Consistency Models简单介绍

Consistency Models受扩散模型技术思路启发，直接将噪声映射到数据分布,无需迭代过程直接生成高质量图像。实验证明，如果模型输出在同一轨迹上的点保持一致,可以有效学习此映射。

在这里插入图片描述

简单来说，Consistency Models直接放弃了逐步去噪过程,而是直接学习把随机的噪声映射到复杂的图像上，同时加上了一致性的规则约束，避免生成的图像出现“驴唇不对马嘴”的情况。

说的更直白一点，我们如果要做一道麻婆豆腐，需要先切豆腐、配菜，然后放在马勺里进行大火翻炒，再放上调料最后出锅。

而Consistency Models的方法是直接就变出一盘麻婆豆腐，省去了所有制作流程，并且口味、菜品都是按照用户标准来的，这就是该技术的神奇之处。

基于上述技术概念，OpenAI的研究人员使用了知识蒸馏和直接训练两种方法来训练Consistency Models。

知识蒸馏：使用一个预先训练好的扩散模型（如Diffusion）,生成一些数据对,然后训练Consistency Models时让这些数据对的输出尽可能接近,来跟扩散模型进行知识蒸馏。

在这里插入图片描述

直接训练法:直接从训练集样本中学习数据到噪声的映射,不需要依赖预训练模型。主要是加入噪声进行数据增强,然后优化增强前后的输出一致性。

实验数据

研究人员在多个图像数据集上测试了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

结果表明,知识蒸馏训练的Consistency Models效果最好,在所有数据集和步数下均优于现有最好的蒸馏技术Progressive Distillation。

在这里插入图片描述

例如,在CIFAR-10上,单步生成达到新记录的FID 3.55,两步生成达到2.93;在ImageNet 64x64上,单步生成FID为6.20,两步生成为4.70,均刷新记录。

在这里插入图片描述

直接训练方式下,Consistency Models也显示出强大的能力，在CIFAR-10上打败了大多数单步生成模型,质量接近Progressive Distillation。

此外,该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务,而无需专门训练。

本文素材来源OpenAI官网、论文、开源项目，如有侵权请联系删除

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/189253.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

实操创建属于自己的亚马逊云科技VPS服务：Amazon Lightsail

实操创建属于自己的亚马逊云科技VPS服务：Amazon Lightsail

本文主要讲述如何独立创建自己的亚马逊云科技VPS服务，希望此文能帮助你对亚马逊云科技VPS服务也就是Amazon Lightsail，有个新的认识，对所使用的VPS有所帮助。 Amazon Lightsail是一款无论云计算的新手还是专家，都可通过其快速启动…

阅读更多...

我在Vscode学OpenCV 图像运算（权重、逻辑运算、掩码、位分解、数字水印）

我在Vscode学OpenCV 图像运算（权重、逻辑运算、掩码、位分解、数字水印）

文章目录权重 _ 要求两幅图像是相同大小的。[ 1 ] 以数据说话（ 1） 最终：（ 2 ）gamma _输出图像的标量值 [ 2 ] 图像的展现力gamma并不等同于增加曝光度（ 1 ）gamma100（ 2 &#xff09…

阅读更多...

mysql8安装和驱动jar包下载

mysql8安装和驱动jar包下载

方式一：基于docker安装下拉镜像 docker pull mysql:8.0.21 启动镜像 docker run -p 3307:3306 --name mysql -e MYSQL_ROOT_PASSWORDhadoop -d mysql:8.0.21 启动成功后，进入容器内部拷贝配置文件，到宿主主机 docker cp mysql:/etc/mysql…

阅读更多...

antlr4踩坑记录

antlr4踩坑记录

一. syntax error: ‘<’ came as a complete surprise to me while matching alternative 参考这个issue，antlr版本必须得是4.6 下载链接：http://www.antlr.org/download/antlr-4.6-complete.jar 二.org.antlr.v4.analysis.LeftRecursiveRuleTrans…

阅读更多...

Windows下Oracle安装和卸载

Windows下Oracle安装和卸载

Windows下Oracle安装和卸载 1、Windows下安装Oracle 安装的版本：win32_11gR2_database。解压之后双击setup.exe程序。点击是。配置安全更新，去掉复选框，点下一步。提示未指定电子邮件地址，点是跳过。配置安装选项&#xf…

阅读更多...

【见缝插针】射击类游戏-微信小程序项目开发流程详解

【见缝插针】射击类游戏-微信小程序项目开发流程详解

还记得小时候玩过的见缝插针游戏吗，比一比看谁插得针比较多，可有趣了，当然了，通过它可以训练自己的手速反应，以及射击水平，把握时机，得分越高就越有成就感，相信小朋友们会喜欢它的&a…

阅读更多...

css实现div倾斜效果

css实现div倾斜效果

效果如下： <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title></head> <style> *{margin:0;padding: 0;} .box1{margin:30px 100px;width:100px;height:200px;background:blueviolet;} …

阅读更多...

cmd打开idea

cmd打开idea

当我们用idea打开一个项目的时候，有时候这个项目目录是有的，但是用idea的open却找不到，有时候我要重新关闭窗口，再open好多次才有于是我现在使用命令打开，先把idea安装路径的bin目录放在path里面然后cd到项目路径&…

阅读更多...

Unreal Engine 学习笔记（3）—— 导入资源

Unreal Engine 学习笔记（3）—— 导入资源

1.导入FBX文件打开系统文件管理器按下鼠标左键拖动fbx文件到UE编辑器中松开鼠标左键在弹出对话框FBX导入选项页面中，选择对应的骨骼重定向骨骼拖动UE4的walk_strafe_back.fbx文件到UE5编辑器中在弹出的FBX导入选项对话框中选择UE4对应的骨骼使用重定向资产…

阅读更多...

什么是微服务自动化测试？

什么是微服务自动化测试？

什么是微服务？ 微服务 - 也称为微服务架构 - 是一种构建方式，它将应用程序构建为松散耦合服务的集合，具有完整的业务功能。微服务架构允许连续交付/部署大型复杂应用程序。本文将概述自动微服务测试工具和最佳实践。它还使组织能够发展其技…

阅读更多...

原生微信小程序学习之旅(一) -来简单的使用

原生微信小程序学习之旅(一) -来简单的使用

文章目录取消导航栏标头组件创建添加Component组件接收传入的数据页面创建(Page)关于tabBartabBar自定义样式轮播图轮播图指示点样式改变微信小程序快速获取用户信息路由跳转获取url路径中的参数 bindtap(click)传参wx:if编写用户登陆关于默认工程目前的获取方法尝试一下服…

阅读更多...

【Python】二维码和条形码的识别

【Python】二维码和条形码的识别

我主要的问题就在于无法识别图片注意事项： 1、从文件中加载图像的时候注意图片尽量用英文来命名，因为中文无法识别到图片 2、使用绝对地址的时候要用两个双斜杠，因为用一个会被识别为Unicode 转义，但是并没有后续的合法 Unico…

阅读更多...

回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测

回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测

回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测目录回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测效果一览基本介绍程序设计参考资料效果一览基本介绍 Matlab实现PCA-PLS主成分降维结合偏小二乘回归预测（完整源码和数据) 1.输…

阅读更多...

机器学习——逻辑回归

机器学习——逻辑回归

目录一、分类问题监督学习的最主要类型二分类多分类二、Sigmoid函数三、逻辑回归求解代价函数推导过程（极大似然估计）： 交叉熵损失函数逻辑回归的代价函数代价函数最小化——梯度下降： 编辑正则化四、逻辑…

阅读更多...

pyqt环境搭建

pyqt环境搭建

创建虚拟环境 # 用管理员身份运行 conda create --prefixE:\Python\envs\pyqt5stu python3.6 # 激活虚拟环境 conda activate E:\Python\envs\pyqt5stu # 退出虚拟环境 conda deactivate安装包 pip install PyQt5 -i https://pypi.douban.com/simple pip install PyQt5-tools…

阅读更多...

关于maven读取settings.xml文件的优先级问题

关于maven读取settings.xml文件的优先级问题

今天在IDEA中配置maven的setting.xml文件路径指向的.m2路径下的setting_a.xml文件，同时，我的maven3.6.3也放在.m2中。 [1] .m2文件夹 [2] apache-maven-3.6.3文件夹然后，在IDEA中打包发布时发现，无论如何都读取不到指定的settin…

阅读更多...

Sectigo SSL

Sectigo SSL

Sectigo（前身为ComodoCA）是全球在线安全解决方案提供商和全球最大的证书颁发机构。为了强调其在SSL产品之外的扩张，Comodo在2018年更名为Sectigo。新名称减少了市场混乱，标志着公司向创新的全方位网络安全解决方案提供商过渡。 S…

阅读更多...

Python基础入门例程52-NP52 累加数与平均值(循环语句)

Python基础入门例程52-NP52 累加数与平均值(循环语句)

最近的博文： Python基础入门例程51-NP51 列表的最大与最小(循环语句)-CSDN博客 Python基础入门例程50-NP50 程序员节（循环语句）-CSDN博客 Python基础入门例程49-NP49 字符列表的长度-CSDN博客目录最近的博文： 描述输入描…

阅读更多...

FPGA运算

FPGA运算

算数运算中，输入输出的负数全用补码来表示，例如用三位小数位来表示的定点小数a-1.625和b-1.375。那么原码分别为a6b‘101101, b6b101011, 补码分别是a6’b110011，b6‘b110101； 如果想在fpga中实现a*b，则需要将a和b用补…

阅读更多...

MySQL：日志系统

MySQL：日志系统

目录概述错误日志（error log）慢查询日志（slow query log）一般查询日志( general log )中继日志（relay log）Buffer Pool 缓存回滚日志（undo log)概述undo log 作用undo log 的存储机制Undo log …

阅读更多...

最新文章

推荐文章