AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)

AIGC实战——ProGAN

    • 0. 前言
    • 1. ProGAN
    • 2. 渐进式训练
    • 3. 其他技术
      • 3.1 小批标准差
      • 3.2 均等学习率
      • 3.3 逐像素归一化
    • 4. 图像生成
    • 小结
    • 系列链接

0. 前言

我们已经学习了使用生成对抗网络 (Generative Adversarial Network, GAN) 解决各种图像生成任务。GAN 的模型架构和训练过程具有很高的灵活性,通过改进 GAN 架构设计和训练过程,研究人员提出了多种不同的网络架构,本节中,我们将介绍 ProGAN (Progressive Growing Generative Adversarial Network) 架构。

1. ProGAN

ProGAN (Progressive Growing Generative Adversarial Network )是由 NVIDIA2017 年提出的生成对抗网络 (Generative Adversarial Network, GAN) 模型,旨在提高 GAN 训练的速度和稳定性。在 ProGAN 中,并不直接对高分辨率图像进行训练,而是首先在低分辨率图像(例如 4 × 4 像素的图像)上训练生成器和判别器,然后在整个训练过程中逐渐增加网络层数以提高分辨率。需要注意的是,训练 ProGAN 需要大量的计算资源。

2. 渐进式训练

ProGAN 同样需要构建两个独立的网络,生成器和判别器,在训练过程中它们交替训练。
在普通 GAN 中,生成器始终输出高分辨率图像,即使在训练的早期阶段也是如此。但这种策略可能并非最优选择,生成器可能在训练的早期阶段很难学习到复杂特征。首先训练一个轻量级的 GAN 来生成准确的低分辨率图像,然后逐渐增加分辨率,这就是渐进式训练 (progressive training) 的核心思想。ProGAN 通过多个阶段进行训练,使用插值方法将训练集中图像尺寸缩放到 4 × 4 作为初始阶段,如下图所示。

渐进式训练

首先训练生成器将潜在输入噪声向量z(例如,长度为 512 )转换为形状为 4 × 4 × 3 的图像。相应的判别器将需要将尺寸为 4 × 4 × 3 的输入图像转换为标量预测,第一步中网络架构如下图所示。

网络架构

生成器中的蓝色框表示将一组特征图转换为 RGB 图像 (toRGB) 的卷积层,判别器中的蓝色框表示将 RGB 图像转换为一组特征图 (fromRGB) 的卷积层。
在原始 ProGAN 模型中,使用 80 万张图像训练这两个网络。接下来,我们需要了解如何扩展生成器和判别器以处理 8 × 8 像素的图像。
为了扩展生成器和判别器,我们需要混合使用其他神经网络层,可以分为过渡 (transition) 和稳定 (stabilization) 两个阶段。

网络架构

在过渡阶段,生成器会在现有的网络中附加新的上采样和卷积层,并使用残差连接来传递已经过训练的 toRGB 层的输出。需要注意的是,新的网络层最初使用参数 α α α 进行掩码处理,该参数在过渡阶段逐渐从 0 增加到 1,以便允许更多的新 toRGB 输出通过,减少现有 toRGB 层的输出。这是为了避免在添加新层时对网络造成冲击。
最终,旧的 toRGB 层输出被完全掩码,网络进入稳定阶段,在这一阶段,网络可以进一步调整输出,而不需要经过旧的 toRGB 层的输出。
鉴别器使用类似的过程,如下图所示。需要在输入图像之后,添加新的下采样和卷积层。现有的fromRGB层通过残差连接相连,并在过渡阶段随着新层的添加逐渐被淘汰,稳定阶段允许鉴别器使用新层进行微调。

模型架构

需要注意的是,即使网络是渐进训练的,也不会冻结任何网络层,在整个训练过程中,所有网络层都保持可训练状态。
ProGAN 中图像尺寸从 4 × 4 开始逐渐增长到 8 × 816 × 1632 × 32,直到 1,024 × 1,024,如下图所示。

整体架构

生成器和鉴别器的整体结构如下图所示。

模型架构

3. 其他技术

除了渐进训练外,ProGAN 还使用了包括小批标准差、均等学习率和逐像素归一化等技术。

3.1 小批标准差

小批标准差(Minibatch Standard Deviation)可以用于增加样本的多样性和减少模式崩溃的问题。在传统的 GAN 中,生成器网络接收一个随机噪声向量作为输入,并生成相应的合成样本。然而,这种方法存在一个问题,即生成的样本可能会过于相似,缺乏多样性。这是因为生成器通过学习大量样本的平均特征来生成图像,导致样本之间缺乏差异。
为了解决这个问题,小批标准差技术引入了一种新的特征向量计算方法。具体而言,它在生成器网络的某一层中计算生成样本的特征向量,并在训练过程中使用这些特征向量的标准差作为一个额外的特征。这个标准差可以理解为表示一小批(minibatch)样本之间的差异程度。
通过引入小批标准差,判别器网络不仅可以评估生成样本与真实样本之间的差异,还可以考虑生成样本之间的多样性。这使得生成器更倾向于生成多样性更高的样本,避免生成过于相似的输出。
小批标准差技术对于解决模式崩溃问题也是有效的。通过使用小批标准差,生成器可以更好地学习到数据集的整体分布,避免陷入单一模式。

3.2 均等学习率

均等学习率 (Equalized Learning Rates) 是一种用于训练神经网络的技术,旨在解决传统神经网络中的权重初始化问题。传统的神经网络在权重初始化时通常使用高斯分布或均匀分布随机初始化,这通常有助于提高训练过程的稳定性,但这种方法缺乏可解释性和普适性,导致网络可能出现梯度爆炸、梯度消失等问题。
AdamRMSProp 等优化器会规范化每个权重的梯度更新,使得更新的大小与权重的尺度(大小)无关。然而,这意味着动态范围较大的权重(即,输入较少的层)比动态范围较小的权重(即,输入较多的层)调整所需的时间相对较长。这会导致 ProGAN 中的生成器和判别器不同层的训练速度不平衡,因此需要使用均等学习率来解决这个问题。
均等学习率利用了批归一化的基本原理,在每一层的输入上动态地归一化权重,从而使每一层的输出具有相似的数量级。在实际应用中,通常通过将每一层的权重乘以一个标准化因子来实现。这个标准化因子可以根据每一层的权重大小和输入维度自适应地计算,从而保证每一层的权重归一化后具有相似的数量级。
除了权重归一化之外,均等学习率还通过缩放每一层的学习率来实现更加稳定的优化。在传统神经网络中,学习率通常是固定的,并在每次训练迭代中应用。然而,在使用均等学习率时,学习率会根据每一层的权重缩放,从而避免过度更新较小的权重(由于它们具有较大的梯度)或过度更新较大的权重(由于它们具有较小的梯度)。

3.3 逐像素归一化

逐像素归一化 (Pixelwise normalization) 是一种在图像生成任务中常用的技术,旨在提高生成模型的稳定性和样本质量。与传统的批归一化不同,批归一化是对整个批数据进行归一化处理,而逐像素归一化则是将每个像素独立地进行归一化。
在传统的生成模型中,生成器网络通常接收一个随机噪声向量作为输入,并生成一张完整的图像。然而,由于每个像素都是独立的,它们具有不同的分布和范围。这导致生成器在训练过程中可能会过度关注某些像素,而忽略其他像素的贡献,导致生成图像出现不均匀的色彩分布或噪点。
为了解决这个问题,逐像素归一化将每个像素独立地进行归一化处理,使得图像在各个像素上具有相似的分布。具体而言,对于每个像素,逐像素归一化计算该像素在所有样本中的均值和标准差,并将像素的原始值减去均值,然后除以标准差。这样做可以将每个像素的值缩放到接近零均值和单位方差的范围内,使得生成器更容易学习到图像的结构和细节。
逐像素归一化增加了生成器对每个像素的敏感性,并减少了样本之间的差异。这有助于生成器更好地捕捉图像的局部细节和全局结构,提高生成图像的质量和真实度。在逐像素归一化层并不存在可训练的权重。

4. 图像生成

除了 CelebA 数据集外,ProGAN 还是用大规模场景理解 (Large-scale Scene Understanding LSUN) 数据集的图像进行训练,生成的结果样本如下所示,这充分证明了 ProGAN 在图像生成方面的强大性能,并为 StyleGANStyleGAN2 等模型奠定了基础。

生成结果

小结

本节中,详细介绍了 ProGAN 模型的基本架构与训练流程。ProGAN 中首次提出了渐进训练概念,首先在低分辨率图像上训练生成器和判别器,然后在整个训练过程中逐渐增加网络层数以提高分辨率。

系列链接

AIGC实战——生成模型简介
AIGC实战——深度学习 (Deep Learning, DL)
AIGC实战——卷积神经网络(Convolutional Neural Network, CNN)
AIGC实战——自编码器(Autoencoder)
AIGC实战——变分自编码器(Variational Autoencoder, VAE)
AIGC实战——使用变分自编码器生成面部图像
AIGC实战——生成对抗网络(Generative Adversarial Network, GAN)
AIGC实战——WGAN(Wasserstein GAN)
AIGC实战——条件生成对抗网络(Conditional Generative Adversarial Net, CGAN)
AIGC实战——自回归模型(Autoregressive Model)
AIGC实战——改进循环神经网络
AIGC实战——像素卷积神经网络(PixelCNN)
AIGC实战——归一化流模型(Normalizing Flow Model)
AIGC实战——能量模型(Energy-Based Model)
AIGC实战——扩散模型(Diffusion Model)
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——Transformer模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/299769.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NzN的数据结构--实现双向链表

上一章中,我们学习了链表中的单链表,那今天我们来学习另一种比较常见的链表--双向链表!! 目录 一、双向链表的结构 二、 双向链表的实现 1. 双向链表的初始化和销毁 2. 双向链表的打印 3. 双向链表的头插/尾插 4. 双向链表的…

数据如何才能供得出、流得动、用得好、还安全

众所周知,数据要素已经列入基本生产要素,同时成立国家数据局进行工作统筹。目前数据要素如何发挥其价值,全国掀起了一浪一浪的热潮。 随着国外大语言模型的袭来,国内在大语言模型领域的应用也大放异彩,与此同时&#x…

【Web】纯萌新的BUUCTF刷题日记Day1

目录 [RoarCTF 2019]Easy Java [网鼎杯 2018]Fakebook [CISCN2019 华北赛区 Day2 Web1]Hack World [BJDCTF2020]The mystery of ip [网鼎杯 2020 朱雀组]phpweb [BSidesCF 2020]Had a bad day [BJDCTF2020]ZJCTF,不过如此 [BUUCTF 2018]Online Tool [GXYCTF…

数据分析web可视化神器---streamlit框架,无需懂前端也能搭建出精美的web网站页面

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 所属的专栏:数据分析系统化教学,零基础到进阶实战 景天的主页:景天科技苑 文章目录 Streamlit什么是streamli…

刷题之Leetcode283题(超级详细)

283.移动零 283. 移动零https://leetcode.cn/problems/move-zeroes/ 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nu…

Rasa X 聊天机器人(部署篇)

一、前言 我们先来了解下 Rasa 是什么?Rasa 是一个开源的自然语言处理 (NLP) 框架,用于构建基于文本的对话系统,如聊天机器人和语音助手。接下来再了解下 Rasa X 是什么?Rasa X 是建立在 Rasa 框架之上的图形用户界面 (GUI) 工具…

.NET8 和 Vue.js 的前后端分离

在.NET 8中实现前后端分离主要涉及到两个部分:后端API的开发和前端应用的开发。后端API通常使用ASP.NET Core来构建,而前端应用则可以使用任何前端框架或技术栈,比如Vue.js、React或Angular等。下面是一个简化的步骤指南,帮助你在…

服装店连锁加盟软件系统权威榜单,商陆花连锁日记再次登顶

随着零售业的不断发展和消费者需求的日益多样化,服装店连锁加盟系统作为商家经营的重要工具,其性能和功能已成为衡量服装连锁店竞争力的关键因素。2023年,经过深入的市场调研和专家评审,我们正式发布本年度服装店连锁加盟系统的权…

Java项目——设计一个消息队列(一)【消息队列的背景知识、项目的需求分析、项目的模块划分】

Java项目——设计一个消息队列 ⼀. 消息队列背景知识⼆. 需求分析核⼼概念核⼼ API交换机类型 (Exchange Type)持久化⽹络通信消息应答 三. 模块划分服务器模块客户端模块公共模块 ⼀. 消息队列背景知识 曾经我们学习过 阻塞队列 (BlockingQueue) , 我们说, 阻塞队列最⼤的⽤途…

超市商品管理系统的设计与实现(全套资料)

一、系统架构 前端:vue | view-design 后端:springboot | mybatis-plus 环境:jdk17 | mysql8 | maven | nodejs | redis 二、代码及数据库 三、功能介绍 01. web端-首页 02. web端-超市概况 03. web端-超市区域 04. …

前端实现打开新标签页后,再次定位到该标签页

需求 A 页面中点击按钮可以打开新的标签页 B 并且向 B 页面发送消息数据。 当新的标签页 B 未关闭且符合同源策略时&#xff0c;再次点击按钮&#xff0c;可以自动跳转到标签页 B 并且发生消息数据。 B.html <script>window.onmessage evt > {console.log(evt.d…

彩虹易支付商户进件插件介绍

插件介绍 商户进件插件&#xff0c;支持多个进件渠道类型&#xff0c;并且可扩展。目前已有《支付宝服务商》、《支付宝直付通》、《微信支付服务商》、《微信支付收付通》进件渠道类型。 支持管理员后台和用户中心提交进件&#xff0c;支持付费进件&#xff0c;用户组限制等…

场景文本检测识别学习 day01(传统OCR的流程、常见的损失函数)

传统OCR的流程 传统OCR&#xff1a;传统光学字符识别常见的的模型主要包括以下几个步骤来识别文本 预处理&#xff1a;预处理是指对输入的图像进行处理&#xff0c;以提高文字识别的准确率。这可能包括调整图像大小、转换为灰度图像、二值化&#xff08;将图像转换为黑白两色&…

一则 MySQL 从节点 hung 死问题分析

作者通过 MySQL 从节点的一个 hung 问题&#xff0c;对数据库连接、日志、innodb status 输出等分析&#xff0c;再结合源码、堆栈等最终明确为由于 redo日志配置不合理导致 hung 死问题根本原因。 作者&#xff1a;李锡超&#xff0c;一个爱笑的江苏苏商银行 数据库工程师&…

2024年最新版FL Studio21.2.3 Build 4004 for Mac 版激活下载和图文激活教程

FL studio21中文别名水果编曲软件&#xff0c;是一款全能的音乐制作软件&#xff0c;包括编曲、录音、剪辑和混音等诸多功能&#xff0c;让你的电脑编程一个全能的录音室&#xff0c;它为您提供了一个集成的开发环境&#xff0c;使用起来非常简单有效&#xff0c;您的工作会变得…

【多线程】Callable详解

Callable接口 先看看Callable接口的源码: Callable是一个函数式接口&#xff0c;此时就可以用lambda表达式更简洁地使用它。Callable是个泛型接口&#xff0c;只有一个方法call&#xff0c;该方法返回类型就是传递进来的V类型。call方法还支持抛出异常. 与Callable对应的是Ru…

openstack中windows虚拟机时间显示异常问题处理

文章目录 一、问题描述二、元数据信息总结 一、问题描述 openstack创建出windows虚拟机的时候&#xff0c;发现时间和当前时间相差8小时&#xff0c;用起来很难受。 参考&#xff1a;https://www.cnblogs.com/hraa0101/p/11365238.html 二、元数据信息 通过设置镜像的元数据…

java对象是怎么在jvm中new出来的,在内存中查看java对象成员变量字段属性值

java对象是怎么在jvm中new出来的 查看java对象字段属性在内存中的值 java 对象 创建 流程 附上java源码 public class MiDept {private int innerFiled999;public MiDept() {System.out.println("new MiDept--------------");}public String show(int data) {Sy…

极客时间: 用 Word2Vec, LangChain, Gemma 模拟全本地检索增强生成(RAG)

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

QT的安装

● 查找国内的镜像 ○ 中国科学技术大学&#xff1a;http://mirrors.ustc.edu.cn/qtproject/ ○ 清华大学&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/qt/ ○ 北京理工大学&#xff1a;http://mirror.bit.edu.cn/qtproject/ ○ 中国互联网络信息中心&#xff1a;https:/…