PyTorch生成式人工智能实战：从零打造创意引擎

- 0. 前言
- 1. 生成式人工智能
- - 1.1 生成式人工智能简介
  - 1.2 生成式人工智能技术
- 2. Python 与 PyTorch
- - 2.1 Python 编程语言
  - 2.2 PyTorch 深度学习库
- 3. 生成对抗网络
- - 3.1 生成对抗网络概述
  - 3.2 生成对抗网络应用
- 4. Transformer
- - 4.1 注意力机制
  - 4.2 Transformer 架构
  - 4.3 多模态 Transformer 和预训练大语言模型
- 5. 专栏目标
- 小结

0. 前言

生成式人工智能 (Generative AI, GAI) 自 ChatGPT 问世以来，引发了广泛关注，并成为了技术领域的焦点。生成式人工智能技术极大的改变了我们日常生活的多个方面，开启了技术的新纪元，并激发了大量研究人员探索各种生成模型所提供的广泛可能性。
例如，Midjourney 已经实现了从简短的文本输入生成高分辨率、逼真图像的技术。类似地，软件公司 Freshworks 通过 ChatGPT 的强大功能，显著加速了应用程序开发，将原本需要 10 周时间的开发周期缩短到仅仅几天。生成式人工智能技术进步的影响远不止于此，如今，生成式人工智能技术能够生成与人类写作相媲美的文章，创作出类似经典音乐作品的乐曲，快速生成复杂的文本文件，这些任务通常需要大量的人工精力和时间。
本专栏深入探讨了生成式人工智能，这项技术通过其高效和快速的内容创作能力，正在重塑众多行业。具体来说，将学习如何使用生成式模型来创建各种形式的内容：数字、图像、文本和音频。此外，还将学习从零开始构建这些模型，以便深入理解生成式 AI 的内部工作原理，我们将使用 Python 和 PyTorch 来构建、训练和使用这些模型。

1. 生成式人工智能

本节解释了什么是生成式人工智能 (Generative AI, GAI)，以及它与非生成式人工智能(判别模型)的不同之处。GAI 具有创造多种形式新内容的非凡能力，包括文本、图像、音频、视频、代码以及复杂的模式。GAI 能够创造出新颖的内容世界，ChatGPT 是一个典型例子。与此相对，判别模型主要关注识别和分类已存在的内容。

1.1 生成式人工智能简介

生成式人工智能是一种通过学习现有数据的模式来创建新内容的人工智能类型，如文本、图像或音乐。与判别模型不同，后者专注于识别不同数据实例之间的差异，并学习不同类别之间的边界。下图展示了这两种建模方法之间的区别。例如，当面对一组包含狗和猫的图像时，判别模型通过捕捉一些关键特征(例如，猫有小鼻子和尖耳朵)来判断每张图片是狗还是猫。判别模型将数据作为输入，并输出不同标签的概率，这些概率分别表示为 Prob(dog) 和 Prob(cat) 。然后，可以根据最高的预测概率来标记输入数据。

GAI

相比之下，生成模型具有能够生成全新数据实例的独特能力。在关于狗与猫示的例中，生成模型通过深入理解这些图像的定义特征，来合成表示狗和猫的新图像。生成模型将任务描述(例如在潜空间中变化的值，这些变化会导致生成不同特征的图像)作为输入，产生新的狗和猫图像。
从统计学的角度来看，当给定具有特征X的数据实例和相应标签 Y 时，判别模型的任务是预测条件概率 prob(Y|X)。相反，生成模型试图学习输入特征 X 和目标变量 Y 的联合概率分布 prob(X, Y)，然后从该分布中采样，生成新的 X 实例。

1.2 生成式人工智能技术

根据想要创建的内容的具体形式，生成模型有不同的类型。在本专栏中，主要聚焦于两种典型技术：生成对抗网络 (Generative Adversarial Network, GAN) 和 Transformer，但也会涵盖变分自编码器、能量模型和扩散模型等。GAN 中的“对抗”一词指的是两个神经网络在零和博弈框架下相互竞争：生成网络试图创建无法与真实样本区分的数据实例，而鉴别网络则试图识别生成样本与真实样本的区别。两个网络之间的竞争推动了双方的共同改进，最终使得生成网络能够创造出高度逼真的数据。Transformer 是深度神经网络，能够高效地解决序列到序列的预测任务。
GAN 因其易于实现和多功能性而广受欢迎，这些多功能的模型能够创造出各种各样的内容，从几何形状和复杂图案，再到高质量的彩色图像，如人脸图像，此外，GAN 还具备转换图像内容的能力，可以无缝地将一张拥有金发的人脸图像变为黑发人脸图像。GAN 还能够将其创作能力扩展到音乐生成领域，创作出逼真的音乐作品。
与几何形状、数字或图像生成不同，文本生成面临着巨大的挑战，主要是因为文本信息的顺序性特征，其中单个字符和单词的的顺序和排列具有重要意义。为了解决这种复杂性，我们引入了 Transformer，一种旨在高效地解决序列到序列的预测任务的深度神经网络。与循环神经网络或卷积神经网络不同，Transformer 在捕捉输入和输出序列中复杂的长程依赖关系方面表现卓越。需要注意的是，Transformer 具备并行训练能力(能够在多个设备上同时进行训练)，显著缩短了训练时间，使我们能够在海量数据上训练 Transformer 模型。
Transformer 架构是大语言模型( Large language model, LLM，指具有大量参数并在大规模数据集上训练的深度神经网络)的基础，包括 ChatGPT、BERT、DALL-E 和 T5 等。Transformer 架构为 AI 领域的飞跃性进展奠定了基础，并推动了 ChatGPT 以及其他生成式预训练 Transformer (Generative Pretrained Transformer, GPT) 模型的出现。

2. Python 与 PyTorch

2.1 Python 编程语言

自 2018 年以来，Python 已成为广泛应用的编程语言。Python 不仅允许用户创建和修改库，而且拥有一个庞大的生态系统，因此可以轻松获取资源。而且可以导入现成的库，避免重新发明轮子，同时也能将自己的代码与 Python 社区共享。
Python 是一个跨平台语言，无论使用的是 Windows、Mac 还是 Linux，虽然根据操作系统的不同，安装软件和库的过程可能会有所不同，但 Python 代码在不同系统上的表现是一样的。
Python 是一种富有表现力的语言，适用于通用应用开发，语法易于掌握，能够轻松理解和使用。Python 提供了大量的库，使得相较于其他语言(如 C++ 或 R)，创建生成模型更加容易。

2.2 PyTorch 深度学习库

在 Python 中，最受欢迎的 AI 框架是 PyTorch 和 TensorFlow。在本专栏中，我们选择 PyTorch 而非 TensorFlow，主要是因为它更易于使用。
PyTorch 是由 Meta 的 AI 研究实验室开发的开源机器学习库。它建立在 Python 编程语言和 Torch 库之上，旨在为创建和训练深度学习模型提供一个灵活且直观的平台，PyTorch 的设计目标是满足研究人员和开发人员的需求，提供一个更加用户友好且可扩展的深度学习框架。
计算图是深度学习中的一个基础概念，它在高效计算复杂数学运算方面起着关键作用，尤其是涉及多维数组或张量的运算。计算图是一个有向图，其中节点表示数学操作，边表示这些操作之间流动的数据。计算图的一个关键用途是在实现反向传播和梯度下降算法时计算偏导数。图结构使得在训练过程中更新模型参数时，能够高效地计算所需的梯度。PyTorch 会实时创建和修改计算图，即所谓的动态计算图。这使得 PyTorch 能够更好地适应不同的模型架构，并简化调试过程。PyTorch 通过 GPU 加速计算，显著减少了相较于 CPU 训练所需的时间。
PyTorch 的设计与 Python 编程语言非常契合。其语法简洁易懂，使得初学者和经验丰富的开发人员都能轻松上手。得益于其动态计算图和简洁的接口，使得快速实验新想法成为可能。这种灵活性在生成式 AI 等快速发展的领域尤为重要。PyTorch 还拥有一个迅速发展的社区，形成了一个丰富的生态系统，包括库、工具和资源，供开发者使用。PyTorch 与其他 Python 库(如 NumPy 和 Matplotlib )兼容。这种互操作性使得用户能够无缝地将 PyTorch 集成到现有的工作流中，从而提高生产力。
由于深度学习中模型的训练需要大量时间，因此通常使用 GPU加速计算，在安装 PyTorch 之前需要根据选用的 PyTorch 版本和显卡安装 CUDA 和 cudnn，关于 CUDA 和 cudnn 的安装和配置可以参考官方文档，建议在安装之前根据自己的操作系统认真查看官方的安装文档，可以避免踩不必要的坑。如果计算机中含有 NVIDIA 显卡作为硬件组件，建议安装 CUDA 驱动程序，该驱动程序可将深度学习训练速度提高几个数量级。
然后，在 PyTorch 官方网页，根据自己实际的环境，进行相应的选择，在 Run this Command 栏中将给出安装 PyTorch 的命令：

Run this Command

在此，我们以 Linux、pip、Python 和 CUDA10.2 为例，复制并在终端执行安装命令：

pip3 install torch torchvision torchaudio

为了确认 PyTorch 已正确安装，可以在 Python shell 中运行以下代码：

>>> import torch
>>> test = torch.empty(2,2)
>>> print(test)
tensor([[2.9685e-26, 4.5722e-41],[2.9685e-26, 4.5722e-41]])

如果能够正确调用 PyTorch 相关函数，表明 PyTorch 已正确安装。需要注意的是，以上代码中，使用 torch.emty() 中创建了一个尺寸为 2 x 2 的张量，它是一个空矩阵，这里的“空”并不意味着所有元素的值都为 Null，而是使用一些被认为是占位符的无意义浮点数，需要在之后进行赋值，这与 NumPy 中的空数组类似。

3. 生成对抗网络

本节首先介绍生成对抗网络 (Generative Adversarial Network, GAN) 工作原理。然后，使用动漫面部图像生成作为示例，展示 GAN 的内部工作原理。最后，讨论 GAN 的实际应用。

3.1 生成对抗网络概述

生成对抗网络 (Generative Adversarial Network, GAN) 是一类生成模型，因为 GAN 易于构建和训练，且能够生成各种各样的内容而变得及其流行。GAN 的核心是双网络架构，包含一个生成器和一个鉴别器。生成器负责捕捉数据的潜分布以生成内容，而鉴别器则用于估计给定样本是来自真实训练数据集(视为“真实”)或来自生成器所生成的伪造样本(视为“虚假”)。模型的主要目标是生成与训练数据集中的实例相似的新数据，GANs生成的数据特性取决于训练数据集的构成。例如，如果训练数据由灰度图像的服装组成，则生成的图像将与这些服装高度相似，而如果训练数据集包含的是人脸的彩色图像，那么生成的图像也将类似于人脸。
GAN 的架构及其组件如下图所示。为了训练模型，训练数据集中的真实样本和由生成器生成的虚假样本一起提供给鉴别器。生成器的主要目标是创建与训练数据集中实例几乎无法区分的数据实例。相反，鉴别器则致力于区分由生成器生成的虚假样本与真实样本。这两个网络通过竞争过程不断进行博弈，试图通过迭代超越对方。

GAN

GAN 模型的训练需要通过多个迭代。在每次迭代中，生成器首先接收某种形式的任务描述，并利用该任务描述生成伪造图像；将这些伪造图像与来自训练集的真实图像一起提供给鉴别器，鉴别器尝试将每个样本分类为真实或虚假。接着，鉴别器将分类结果与实际标签(真实标签)进行比较，生成器和鉴别器根据分类结果获得反馈，并通过反馈改进各自的能力：鉴别器通过不断调整来提高识别虚假样本的能力，而生成器则学习如何生成更具迷惑性的样本以骗过鉴别器。随着训练的进行，两个网络最终达到一个平衡点，这时两个网络都无法进一步改进，此时生成器能够生成与真实样本几乎无法区分的数据样本。

3.2 生成对抗网络应用

GAN 易于实现且用途广泛，可以用于生成几何形状、复杂图案、高分辨率图像，以及逼真的音乐。GAN 的实际应用不仅限于生成逼真的数据，还可以将一个图像域中的属性转化为另一个图像域，例如，训练 CycleGAN 模型，将人脸图像中的金发转变为黑发，或反之将黑发转为金发。
GAN 同样具有广泛的实用场景。假设，一个服装店，在生产之前允许用户进行定制，网站展示了大量独特的设计供客户选择，但问题是：只会在有人下单后才开始制作这些衣服。而制作这些衣服的高质量图像较为昂贵，因为必须先生产出衣服，然后再拍摄照片。而使用 GAN 将极大的简化此过程，无需拥有大量生产出来的服装和照片，可以使用 CycleGAN 将一组图像中的特征转化为另一组图像，从而创造出全新的风格。这只是使用 GAN 的一个简单示例，利用 GAN 模型的多功能性能够创建无穷的可能性。

4. Transformer

Transformer 是一种擅长处理序列到序列预测问题的深度神经网络，例如接受输入句子并预测最可能的下一个词汇。本节将介绍 Transformer 的关键创新点：自注意力机制。然后我们将讨论 Transformer 架构和不同类型的 Transformer。最后，我们将讨论 Transformer 的一些最新进展，例如多模态模型(输入不仅包括文本，还包括音频和图像等其他数据类型)和预训练大语言模型(基于大规模文本数据进行训练的模型，能够执行各种下游任务)。
在 Transformer 架构提出之前，自然语言处理 (Natural Language Processing, NLP) 和其他序列到序列的预测任务主要是通过循环神经网络 (Recurrent Neural Network, RNN) 进行处理。然而，RNN 在保留序列中早期元素的信息方面存在困难，这限制了它们捕捉长期依赖关系的能力。即使是能够处理更长依赖关系的高级 RNN 变体，如长短期记忆网络 (Long Short-Term Memory Network, LSTM)，在面对极长的依赖关系时依然表现不佳。
更重要的是，RNN (包括 LSTM 等变体)是按顺序处理输入的，这意味着这些模型一次只能处理一个元素，按顺序处理，而不是同时查看整个序列。RNN 沿着输入和输出序列的顺序进行计算，导致其无法进行并行训练，使得训练过程变得缓慢。因此，也导致其无法在大规模的数据集上进行训练。
Transformer 的关键创新是自注意力机制，自注意力机制非常擅长捕捉序列中的长期依赖关系。此外，由于输入在模型中不是按顺序处理的，Transformer 可以进行并行训练，从而大大缩短训练时间。更重要的是，并行训练使得模型在大型数据集上训练成为可能，这使得大语言模型 (Large language model, LLM) 更智能且学习能力更强，能够用于处理和生成文本，理解上下文并执行各种语言任务。这促成了 ChatGPT 等 LLM 的崛起，并推动了 AI 应用的热潮。

4.1 注意力机制

注意力机制为序列中每个元素与所有其他元素(包括其自身)之间的关系分配权重。权重越高，两个元素之间的关系就越紧密，这些权重在训练过程中从大量的训练数据中学习得到。因此，如 ChatGPT，DeepSeek 等训练好的 LLM 能够理解句子中任意两个词之间的关系，从而理解自然语言。
那么注意力机制是如何为序列中的元素分配权重，以捕捉长期依赖关系的？注意力权重是通过首先将输入通过三个神经网络层，得到查询 Q (Query)、键 K (Key) 和值 V (Value) 来计算的。使用查询、键和值来计算注意力的方法来源于检索系统。例如，在图书馆搜索一本书，可以在图书馆的搜索引擎中输入“PyTorch 生成式人工智能”之类的关键词。在这种情况下，查询 Q 就是“PyTorch 生成式人工智能”，键 K 则是书名、书籍描述等内容。图书馆的检索系统会根据查询和键之间的相似性推荐一系列书籍(值 V)。自然地，书名或描述中包含“PyTorch”或“生成式人工智能”或同时包含两者的书籍会排在前面，而那些标题或描述中没有这些关键词的书籍则会排在列表底部，因为这些书籍会被分配较低的匹配分数。

4.2 Transformer 架构

Transformer 最初是为了构建机器语言翻译模型，例如，英语翻译为法语。下图展示了 Transformer 架构。左侧是编码器 (Encoder)，右侧是解码器 (Decoder)。

Transformer

Transformer 中的编码器“学习”输入序列的含义(例如，英语短语“How are you?”)，并将其转换为代表这一含义的向量，再将这些向量传递给解码器。解码器基于序列中先前的单词和编码器的输出，逐个预测下一单词，从而构建输出(例如，英语短语的法语翻译)。训练好的模型能够将常见的英语短语翻译为法语。
Transformer 有三种类型：仅编码器 Transformer、仅解码器 Transformer 和编码器-解码器 Transformer。仅编码器 Transformer 没有解码器，能够将一个序列转换为一个抽象表示，供下游任务使用，如情感分析、命名实体识别和文本生成。例如，BERT 就是一个仅编码器的 Transformer。仅解码器 Transformer 没有编码器，只有解码器，适用于文本生成、语言建模和创意写作。例如，GPT-2 和 ChatGPT 都是仅解码器 Transformer。
编码器-解码器 Transformer 适用于处理复杂任务，如多模态模型，能够处理文本到图像生成或语音识别等任务。编码器-解码器 Transformer 结合了编码器和解码器的优点。编码器擅长处理和理解输入数据，而解码器则擅长生成输出。这个结合使得模型能够有效理解复杂的输入(如文本或语音)并生成复杂的输出(如图像或转录文本)。

4.3 多模态 Transformer 和预训练大语言模型

多模态模型模型不仅可以处理文本，还能够处理其他类型的数据，如音频和图像。例如，文本到图像 Transformer，包括 DALL-E 2、Imagen 和 Stable Diffusion 都是文本到图像的模型，能够根据文本提示生成高分辨率图像。文本到图像 Transformer 融入了扩散模型的原理，扩散模型涉及一系列的变换，逐渐增加数据的复杂性。因此，在讨论文本到图像 Transformer 之前，首先需要理解扩散模型。
假设通过使用基于扩散的模型生成高分辨率的花卉图像。首先需要一个高质量的花卉图像训练集。然后，模型逐步向这些花卉图像添加噪声(即所谓的扩散过程)，直到它们变成完全的随机噪声。接着，训练模型逐步去除这些噪声，从而生成新的数据样本。扩散过程如下图所示。左列包含原始的花卉图像，向右移动的过程中，每一步都向图像中添加噪声，直到最右列时，图像完全变成随机噪声。

正向扩散过程

文本到图像 Transformer 以文本提示作为输入，生成与该文本描述相对应的图像。文本提示作为一种条件输入，模型通过一系列神经网络层将文本描述转化为图像。与扩散模型类似，文本到图像 Transformer 采用分层架构，每一层逐步为生成的图像添加更多细节。扩散模型和文本到图像 Transformer 的核心概念——逐步细化输出——在两者之间是相似的。扩散模型因其能够提供稳定的训练并生成高质量的图像，已变得越来越流行，并且在生成效果上超过了其他生成模型，如 GAN 和变分自编码器。

5. 专栏目标

本专栏的目标是学习如何从零开始构建和训练生成模型。通过这种方式，对这些模型的内部工作机制有一个全面的了解，从而能够更好地利用它们，从零开始创建深度学习模型是理解这些模型的最佳方式。从这个角度来看，本专栏并不将生成式人工智能模型当作黑盒模型，而是深入详细地介绍这些模型的内部工作原理。目标是我们对生成模型有更深刻的理解，构建更好的生成式人工智能，总体而言：

系统进阶：内容层层递进，从 GAN 生成手写数字起步，直至构建 Transformer 翻译模型、扩散模型生成花卉图像，手把手打通生成式人工智能全链路
前沿实战：解锁 CycleGAN 实现图像跨域转换、用 500 万参数 GPT 复刻海明威文风、打造 AI 助手等硬核项目，代码即战力
多模态创意：横跨图像、文本、音乐三大领域，揭秘 MuseGAN 作曲、DALL-E 底层技术，成为跨界内容创作者
使用技巧：涵盖 PyTorch 核心 API、Hugging Face 模型调优、扩散模型采样策略，无缝衔接开源生态

小结

生成式人工智能是一种具备生成多种新内容形式(如文本、图像、代码、音乐、音频和视频)的技术，判别模型专注于分配标签，而生成模型则生成新的数据实例。PyTorch 凭借其动态计算图和支持 GPU 训练的能力，非常适合用于深度学习和生成建模。《PyTorch生成式人工智能实战》从神经网络基础到 Stable Diffusion 实战，从零开始实现工业级项目，让创造力突破想象边界，用代码点燃生成式人工智能的无限可能！