【Diffusion学习】【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

【Diffusion学习】【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

news/2025/1/11 22:39:12/文章来源:https://blog.csdn.net/weixin_43154149/article/details/140441769

文章目录

- 图片生成Framework 需要3个组件：
- - 相关论文【Stable Diffusion，DALL-E，Imagen】
- 具体介绍三个组件
- - 1. Text encoder介绍【结论：文字的encoder重要，Diffusion的模型不是很重要！】
  - - 评估指标：FID计算
    - CLIP Score 计算
  - 3. Decoder介绍【不需要成对的训练资料】
  - 2. Diffusion Model介绍【训练一个noise predicter】
  - - noise 加在 latent representation上

from: https://www.youtube.com/watch?v=JbfcAaBT66U&list=PLJV_el3uVTsNi7PgekEUFsyVllAJXRsP-&index=5

简介：

84,841次观看 2023年3月25日【機器學習 2023】(生成式 AI)
感謝黃敬峰先生提供字幕

Stable Diffusion
https://arxiv.org/abs/2112.10752

DALL-E series
https://arxiv.org/abs/2204.06125
https://arxiv.org/abs/2102.12092

Imagen
https://arxiv.org/abs/2205.11487

图片生成Framework 需要3个组件：

Text Encoder
Generation Model
Decoder

在这里插入图片描述

相关论文【Stable Diffusion，DALL-E，Imagen】

在这里插入图片描述

在这里插入图片描述

具体介绍三个组件

在这里插入图片描述

1. Text encoder介绍【结论：文字的encoder重要，Diffusion的模型不是很重要！】

在这里插入图片描述

评估指标：FID计算

在这里插入图片描述

CLIP Score 计算

在这里插入图片描述

3. Decoder介绍【不需要成对的训练资料】

在这里插入图片描述

在这里插入图片描述

2. Diffusion Model介绍【训练一个noise predicter】

在这里插入图片描述

noise 加在 latent representation上

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/377908.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何保证数据库和redis的数据一致性

如何保证数据库和redis的数据一致性

1、简介在客户端请求数据时，如果能在缓存中命中数据，那就查询缓存，不用在去查询数据库，从而减轻数据库的压力，提高服务器的性能。 2、问题如何保证两者的一致性先更新数据库在删除缓存难点：如何保证…

阅读更多...

极狐Gitlab使用（1）

极狐Gitlab使用（1）

目录续接上篇：极狐Gitlab安装部署-CSDN博客 1. 关闭注册功能 2. 创建群组 3. 创建用户 5. 邀请成员到群组 6. 设置导入导出项目源 7. 通过gitee导入库 8. 通过仓库URL导入 9. 自创建项目 10. 默认分支main的权限 11. 使用普通用户进入自建库 12. 创建用…

阅读更多...

为企业提升销售工作效率的工作手机管理系统

为企业提升销售工作效率的工作手机管理系统

在竞争日益激烈的市场环境中，企业的销售团队如同前线战士，其作战效率直接关乎企业的生存与发展。然而，传统销售管理模式下的信息孤岛、沟通不畅、数据混乱等问题，正悄然成为制约销售效率提升的瓶颈。今天，我们为您揭秘…

阅读更多...

axios以post方式提交表单形式数据

axios以post方式提交表单形式数据

某些后端框架请求接口必须走form表单提交的那种形式，但前端很少有<form action"接口地址" method"post"></form>这种写法去提交表单数据，所以前端需要用axios模拟一个表单提交接口。 Content-Type 代表发送端&#xff0…

阅读更多...

【C++PythonJava】字符处理详细解读_字符_ASCLL码_字母数字转换_算法竞赛_开发语言

【C++PythonJava】字符处理详细解读_字符_ASCLL码_字母数字转换_算法竞赛_开发语言

文章目录 Beginning1）ASCLL 码2）大小比较2）判断数字字符3）字符、数字间的相互转换End Beginning 在 C 中，字符和整数有着密不可分的关系。原因就是在计算机中，字符是以一种较 ASCLL 码的整数存储的。自然&…

阅读更多...

抖音短视频矩阵策略揭秘：引爆流量秘籍

抖音短视频矩阵策略揭秘：引爆流量秘籍

在当前的数字化媒体环境中，抖音已经成为全球最受欢迎的短视频平台之一，每日吸引了亿计的用户浏览各类视频内容。因此，对于众多企业与营销专家而言，掌握在抖音平台上实施高效的搜索引擎优化（SEO）策略和构建有…

阅读更多...

SpringBoot之健康监控（Actuator）

SpringBoot之健康监控（Actuator）

1，基本介绍 Spring Actuator 是 Spring Boot 提供的一个扩展模块，用于监控和管理应用程序的生产环境。它通过 HTTP 端点暴露了大量的监控和管理功能，使得开发者可以在运行时查看应用程序的运行状况、配置信息、性能指标等。主要功能&#…

阅读更多...

根据图片快速生成word、wps latex公式

根据图片快速生成word、wps latex公式

快速生成word、wps公式：https://simpletex.net/ai/latex_ocr

阅读更多...

一站式短视频矩阵开发，高效托管！

一站式短视频矩阵开发，高效托管！

短视频矩阵系统源码SaaS解决方案提供全面的开发服务，包括可视化视频编辑、矩阵式内容分发托管以及集成的多功能开发支持。短视频矩阵：引爆您的数字营销革命短视频矩阵系统是一套多功能集成解决方案，专为提升在短视频平台上的内容创作、管理…

阅读更多...

使用jenkins进行自动化部署

使用jenkins进行自动化部署

记录一下查看的文档和遇到的坑什么是jenkins Jenkins是一个开源的持续集成（CI）和持续交付（CD）工具，主要用于自动化软件开发的各个阶段，包括构建、测试、部署等。 Jenkins基于Java开发，支持与…

阅读更多...

vue中el-table单元格复制功能

vue中el-table单元格复制功能

一、单页面中使用 1.在el-table上绑定单击事件 cell-click“copyText” 或双击事件 cell-dblclick“copyText” 注：cell-dblclick函数有四个参数，分别是row, column, cell, event； row：可看到被其操作单元格所在行的所有的数据&…

阅读更多...

CentOS7安装部署git和gitlab

CentOS7安装部署git和gitlab

安装Git 在Linux系统中是需要编译源码的，首先下载所需要的依赖： yum install -y curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker方法一下载： wget https://mirrors.edge.kernel.org/pub/s…

阅读更多...

c++ primer plus 第16章string 类和标准模板库,16.1.3 使用字符串

c++ primer plus 第16章string 类和标准模板库,16.1.3 使用字符串

c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串 c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串文章目录 c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串16.1.3 使用字符串程序清单16.3 hangman.cpp 16.1.3 使用字符串现在&a…

阅读更多...

opencv学习：图像视频的读取截取部分图像数据颜色通道提取合并颜色通道边界填充数值计算图像融合

opencv学习：图像视频的读取截取部分图像数据颜色通道提取合并颜色通道边界填充数值计算图像融合

一、计算机眼中的图像 1.图像操作构成像素点的数字在0~255之间 RGB叫做图像的颜色通道 h500，w500 2.灰度图像 3. 彩色图像 4.图像的读取 5.视频的读取 cv2.VideoCapture()--在OpenCV中，可以使用VideoCapture来读取视频文件，或是摄像头数…

阅读更多...

解决网页中的 video 标签在移动端浏览器（如百度访问网页）视频脱离文档流播放问题

解决网页中的 video 标签在移动端浏览器（如百度访问网页）视频脱离文档流播放问题

问题现象部分浏览器视频脱离文档流，滚动时，视频是悬浮出来，在顶部播放解决方案添加下列属性，可解决大部分浏览器的脱离文档流的问题 <videowebkit-playsinline""playsInlinex5-playsinlinet7-video-player-t…

阅读更多...

HTML5+CSS3小实例：纯CSS实现奥运五环

HTML5+CSS3小实例：纯CSS实现奥运五环

实例：纯CSS实现奥运五环技术栈：HTML+CSS 效果：源码：【HTML】 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-sca…

阅读更多...

1.30、基于卷积神经网络的手写数字旋转角度预测(matlab)

1.30、基于卷积神经网络的手写数字旋转角度预测(matlab)

1、卷积神经网络的手写数字旋转角度预测原理及流程基于卷积神经网络的手写数字旋转角度预测是一个常见的计算机视觉问题。在这种情况下，我们可以通过构建一个卷积神经网络（Convolutional Neural Network，CNN）来实现该任务。以下…

阅读更多...

数学建模·Topsis优劣解距离法

数学建模·Topsis优劣解距离法

Topsis优劣解一种新的评价方法，特点就是利用原有数据，客观性强。相较于模糊评价和层次评价更加客观，充分利用原有数据，精确反映方案差距基本原理离最优解最近，离最劣解越远具体步骤正向化代码与原理与熵权…

阅读更多...

Spring Boot中@Async注解的使用及原理 + 常见问题及解决方案

Spring Boot中@Async注解的使用及原理 + 常见问题及解决方案

😄 19年之后由于某些原因断更了三年，23年重新扬帆起航，推出更多优质博文，希望大家多多支持～ 🌷 古之立大事者，不惟有超世之才，亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

阅读更多...

阿里云GPU服务器安装ComfyUI

阿里云GPU服务器安装ComfyUI

连接到GPU服务器: 使用SSH客户端(如PuTTY或终端)连接到你的服务器。命令通常是: ssh usernameserver_ip安装依赖: 确保Python和Git已安装。在大多数Linux系统上,可以这样安装: sudo apt update sudo apt install python3 python3-pip git克隆ComfyUI仓库: 这步骤会下载ComfyUI的…

阅读更多...

最新文章

推荐文章