pytorch经典训练流程

文章目录

@[toc]
1. 经典训练流程和任务：监督学习
1.1 什么是监督学习？
1.2 为什么要设计训练流程？
1.3 怎么设计训练流程？
代码示例：监督学习的典型流程

2. 超参数设置
2.1 什么是超参数？
2.2 为什么要设置超参数？
2.3 怎么设置超参数？
代码示例：设置超参数

3. 数据集预处理（Pre-transform）
3.1 什么是数据集预处理？
3.2 为什么要预处理？
3.3 怎么做预处理？
代码示例：数据预处理

4. 数据集加载
4.1 什么是数据集加载？
4.2 为什么需要数据集加载器？
4.3 怎么加载数据集？
代码示例：数据加载

5. 数据集后处理（Transform）
5.1 什么是数据集后处理？
5.2 为什么需要后处理？
5.3 常见的后处理操作
代码示例：数据集后处理
可视化增强后的数据

6. 模型初始化、优化器初始化
6.1 什么是模型初始化？
6.2 为什么要初始化模型？
6.3 怎么初始化模型？
代码示例：模型初始化
优化器初始化

7. 多个 Epoch 的训练：梯度下降
7.1 什么是梯度下降？
7.2 为什么要多次训练（多个 Epoch）？
7.3 训练流程
代码示例：多个 Epoch 的训练

8. 中间结果打印 (Loss, Accuracy 等)
8.1 为什么打印中间结果？
8.2 什么是常见的中间结果？
8.3 怎么计算和打印中间结果？
代码示例：中间结果打印
8.4 增加验证过程
8.5 可视化训练曲线

1. 经典训练流程和任务：监督学习

1.1 什么是监督学习？

监督学习是一种机器学习方法，模型通过已标注的数据（输入与输出）进行训练，从而学习从输入预测输出的映射关系。其目标是让模型能够在未标注的新数据上作出准确预测。

典型任务：

分类任务：预测输入属于哪个类别（例如图像分类、垃圾邮件检测）。
回归任务：预测连续的数值（例如房价预测、股票预测）。

1.2 为什么要设计训练流程？

监督学习的目标是最小化模型预测输出和真实输出之间的误差（称为损失）。一个标准的训练流程可以帮助我们：

有效利用数据 ：通过批量化处理大数据集，逐步优化模型参数。
动态调整模型 ：通过多轮迭代学习更好的参数。
评估模型性能 ：通过指标（例如准确率、损失值）判断模型效果。

1.3 怎么设计训练流程？

一个典型的监督学习训练流程包括以下步骤：

准备数据（加载、预处理）。
初始化模型。
定义损失函数和优化器。
执行多个 epoch 的训练（包括前向传播、损失计算、反向传播、参数更新）。
评估模型性能。

代码示例：监督学习的典型流程

以下是一个简单的监督学习流程，用于分类任务（例如使用 MNIST 手写数字数据集）：

# 1. 加载必要的库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms# 2. 数据准备
transform = transforms.Compose([transforms.ToTensor(),  # 转换为张量transforms.Normalize((0.5,), (0.5,))  # 标准化
])# 加载MNIST数据集
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True)train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)# 3. 模型初始化
class SimpleNN(nn.Module):def __init__(self):super(SimpleNN, self).__init__()self.fc = nn.Sequential(nn.Flatten(),  # 展平输入nn.Linear(28 * 28, 128),  # 全连接层nn.ReLU(),  # 激活函数nn.Linear(128, 10)  # 输出层（10类别）)def forward(self, x):return self.fc(x)model = SimpleNN()# 4. 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失
optimizer = optim.SGD(model.parameters(), lr=0.01)  # 随机梯度下降优化器# 5. 训练流程
epochs = 5
for epoch in range(epochs):model.train()running_loss = 0.0for batch_idx, (inputs, labels) in enumerate(train_loader):# 清除之前的梯度optimizer.zero_grad()# 前向传播outputs = model(inputs)loss = criterion(outputs, labels)# 反向传播和参数更新loss.backward()optimizer.step()running_loss += loss.item()print(f"Epoch {epoch+1}/{epochs}, Loss: {running_loss/len(train_loader):.4f}")# 6. 模型评估
model.eval()
correct = 0
total = 0
with torch.no_grad():for inputs, labels in test_loader:outputs = model(inputs)_, predicted = torch.max(outputs, 1)  # 获取最大值对应的类别correct += (predicted == labels).sum().item()total += labels.size(0)print(f"Accuracy: {100 * correct / total:.2f}%")

2. 超参数设置

2.1 什么是超参数？

超参数是那些在训练模型之前手动设置的参数，而不是通过训练自动学习的参数。超参数对模型性能和训练过程有重要影响。常见的超参数包括：

学习率（learning rate）：决定每次参数更新的步长大小。
批量大小（batch size）：决定一次训练中使用的样本数。
训练轮数（epochs）：模型在整个数据集上训练的完整次数。
隐藏层的层数和单元数（网络结构相关）。
优化器类型（如 SGD, Adam）。

2.2 为什么要设置超参数？

合理的超参数设置可以：

提升训练效率 ：加速收敛，减少训练时间。
提高模型性能 ：避免欠拟合或过拟合。
改善稳定性 ：避免训练过程中的数值不稳定或发散。

超参数通常需要通过经验或网格搜索、随机搜索等方法来确定最佳值。

2.3 怎么设置超参数？

以下是常见的超参数设置和推荐值：

学习率 ：较小值（如 0.001~0.01）通常较稳定，但训练慢；较大值（如 0.1）可能加速训练，但易导致不收敛。
批量大小 ：32、64 或 128 是常用的值，GPU 通常能更好地处理较大的 batch。
训练轮数 ：视数据集大小和模型复杂度而定，通常设置为 5~100。
优化器 ：推荐从 Adam 开始，默认参数 lr=0.001。

代码示例：设置超参数

以下是一个简单的超参数设置示例，包含了常见的超参数配置：

# 超参数定义
learning_rate = 0.01  # 学习率
batch_size = 64       # 批量大小
epochs = 10           # 训练轮数# 数据加载
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)# 模型、损失函数和优化器初始化
model = SimpleNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)# 输出超参数设定
print(f"Hyperparameters:\n Learning Rate: {learning_rate}\n Batch Size: {batch_size}\n Epochs: {epochs}")

3. 数据集预处理（Pre-transform）

3.1 什么是数据集预处理？

数据集预处理是指在模型训练前对原始数据进行转换，使其适合输入到模型中。典型的预处理包括：

图像归一化、缩放。
缺失值填充。
特征工程（如词嵌入、独热编码）。

在深度学习中，pre-transform 通常是一次性操作，处理后的数据保存到磁盘，后续训练直接加载以节省时间。

3.2 为什么要预处理？

提高模型训练效果 ：例如，归一化可以加快收敛速度。
减少数据噪声 ：例如，去掉异常值。
统一数据格式 ：确保数据符合模型输入要求。

3.3 怎么做预处理？

以下以 MNIST 数据集为例说明预处理：

归一化：将像素值从 [0, 255] 映射到 [0, 1]。
标准化：使数据均值为 0，标准差为 1。

代码示例：数据预处理

# 定义预处理操作
transform = transforms.Compose([transforms.ToTensor(),  # 转为 PyTorch 张量transforms.Normalize((0.5,), (0.5,))  # 标准化：均值为0，方差为1
])# 加载并预处理数据集
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True)# 数据加载器
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

4. 数据集加载

4.1 什么是数据集加载？

数据集加载是指将数据从存储介质中读取到内存中，并按需提供给模型训练的过程。PyTorch 提供了 DataLoader 方便进行批量化加载数据。

4.2 为什么需要数据集加载器？

批量化处理 ：分批加载可以减少内存占用，加速训练。
随机性 ：支持数据打乱（shuffle），有助于减少模型对数据顺序的依赖。
并行化 ：支持多线程加载数据，提高数据读取效率。

4.3 怎么加载数据集？

DataLoader 是核心工具，可以控制批量大小、是否打乱、加载线程数等。

代码示例：数据加载

from torch.utils.data import DataLoader# 批量加载数据
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=2)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=2)# 查看一个 batch 的数据
data_iter = iter(train_loader)
images, labels = next(data_iter)print(f"Batch size: {images.size()}")  # 打印形状 (batch_size, 1, 28, 28)
print(f"Labels: {labels}")             # 打印标签

下一步，将详细讲解 数据集后处理（Transform） 和其他剩余内容。

5. 数据集后处理（Transform）

5.1 什么是数据集后处理？

数据集后处理是指在每次运行训练或推理时，对加载后的数据进行动态转换操作。这些操作和预处理（Pre-transform）不同，它们会在每次访问数据时应用，而不是一次性保存到磁盘。典型操作包括：

数据增强（如随机裁剪、旋转）。
数据格式转换（如将图片转换为张量）。
特定模型需求的格式调整。

5.2 为什么需要后处理？

增加数据多样性 ：数据增强通过对原始数据的变换提高模型的泛化能力。
简化训练流程 ：通过动态调整避免为每种场景重新处理数据。
满足特定需求 ：根据不同模型需求生成合适的输入。

5.3 常见的后处理操作

以下列举了图像任务中常见的后处理操作：

随机裁剪（RandomCrop）。
随机旋转（RandomRotation）。
随机翻转（RandomHorizontalFlip）。
图像缩放（Resize）。

代码示例：数据集后处理

以下代码实现了动态的数据增强和标准化操作：

from torchvision import transforms# 定义数据增强和标准化操作
transform = transforms.Compose([transforms.RandomHorizontalFlip(p=0.5),  # 50%概率水平翻转transforms.RandomRotation(degrees=10),  # 随机旋转 -10 到 10 度transforms.ToTensor(),                  # 转为张量transforms.Normalize((0.5,), (0.5,))    # 标准化
])# 加载训练数据集（应用transform）
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)# 数据加载器
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)# 查看一个经过后处理的数据样本
data_iter = iter(train_loader)
images, labels = next(data_iter)print(f"Image batch shape: {images.size()}")  # 打印形状
print(f"Label batch: {labels}")

可视化增强后的数据

你还可以可视化数据增强后的图像，直观观察后处理效果：

import matplotlib.pyplot as plt# 可视化前几个图像
for i in range(6):plt.subplot(2, 3, i+1)plt.imshow(images[i].squeeze().numpy(), cmap='gray')plt.title(f"Label: {labels[i].item()}")
plt.tight_layout()
plt.show()

6. 模型初始化、优化器初始化

6.1 什么是模型初始化？

模型初始化是定义模型结构，并为模型的参数赋初值的过程。在 PyTorch 中，模型通过继承 torch.nn.Module 来构建。模型的参数在定义时会默认随机初始化。

6.2 为什么要初始化模型？

定义网络结构 ：为任务设计合适的模型结构。
参数初始化 ：参数初始化对训练过程至关重要，好的初始化方式可以加速收敛并减少梯度消失或爆炸问题。

6.3 怎么初始化模型？

PyTorch 提供了多种参数初始化方式（如 Xavier 初始化、He 初始化）。
模型结构在 __init__ 方法中定义，前向计算逻辑在 forward 方法中定义。

代码示例：模型初始化

以下示例构建了一个简单的卷积神经网络（CNN）：

import torch.nn as nn
import torch.nn.functional as Fclass SimpleCNN(nn.Module):def __init__(self):super(SimpleCNN, self).__init__()# 定义网络层self.conv1 = nn.Conv2d(1, 16, kernel_size=3, stride=1, padding=1)  # 输入通道1，输出通道16self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)self.fc1 = nn.Linear(32 * 7 * 7, 128)  # 全连接层self.fc2 = nn.Linear(128, 10)def forward(self, x):# 定义前向传播x = F.relu(self.conv1(x))x = F.max_pool2d(x, 2)  # 最大池化x = F.relu(self.conv2(x))x = F.max_pool2d(x, 2)x = x.view(x.size(0), -1)  # 展平x = F.relu(self.fc1(x))x = self.fc2(x)return x# 初始化模型
model = SimpleCNN()
print(model)

优化器初始化

优化器是用于更新模型参数的工具。在初始化时，需要指定优化器类型和学习率。

# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)# 打印模型的可训练参数
for name, param in model.named_parameters():print(name, param.shape, param.requires_grad)

7. 多个 Epoch 的训练：梯度下降

7.1 什么是梯度下降？

梯度下降是深度学习中优化模型参数的核心算法。它通过计算损失函数相对于模型参数的梯度，逐步更新参数以最小化损失。

7.2 为什么要多次训练（多个 Epoch）？

充分学习数据 ：单次遍历数据（一个 epoch）通常不足以学到有效的参数。
渐进式优化 ：每次迭代（mini-batch）更新参数，多个 epoch 能够进一步减少损失。

7.3 训练流程

每个 epoch 的训练包括：

前向传播 ：计算模型输出和损失。
反向传播 ：通过梯度计算更新参数。
评估中间结果 ：打印损失、准确率等指标。

代码示例：多个 Epoch 的训练

epochs = 5
for epoch in range(epochs):model.train()total_loss = 0.0for inputs, labels in train_loader:optimizer.zero_grad()  # 清除梯度outputs = model(inputs)  # 前向传播loss = criterion(outputs, labels)  # 计算损失loss.backward()  # 反向传播optimizer.step()  # 参数更新total_loss += loss.item()print(f"Epoch {epoch+1}/{epochs}, Loss: {total_loss/len(train_loader):.4f}")

8. 中间结果打印 (Loss, Accuracy 等)

8.1 为什么打印中间结果？

在训练过程中打印中间结果（例如损失和准确率）有以下重要意义：

监控训练过程 ：可以观察模型是否正常收敛，避免梯度爆炸或梯度消失。
调试和排错 ：如果损失不减小或表现异常，可能是模型结构或超参数设置的问题。
评估性能趋势 ：通过观察准确率的变化，判断模型是否欠拟合或过拟合。

8.2 什么是常见的中间结果？

训练损失（Training Loss） ：表示模型在训练数据上的误差。
验证损失（Validation Loss） ：表示模型在验证数据上的误差，用于监控模型的泛化能力。
训练准确率（Training Accuracy） ：模型在训练数据上的分类正确率。
验证准确率（Validation Accuracy） ：模型在验证数据上的分类正确率。

8.3 怎么计算和打印中间结果？

损失计算 ：通过定义的损失函数 criterion 直接计算。
准确率计算 ：通过比较模型输出的预测值与真实标签，统计预测正确的数量。
打印格式优化 ：可以采用 print 或日志工具（如 logging）打印结果。

代码示例：中间结果打印

以下是训练过程中打印损失和准确率的完整代码示例：

# 定义一个函数计算准确率
def compute_accuracy(outputs, labels):_, predicted = torch.max(outputs, 1)  # 获取预测值的类别correct = (predicted == labels).sum().item()  # 统计正确数量accuracy = correct / labels.size(0)  # 计算准确率return accuracy# 训练过程
epochs = 5
for epoch in range(epochs):model.train()total_loss = 0.0total_accuracy = 0.0for inputs, labels in train_loader:optimizer.zero_grad()  # 清除梯度outputs = model(inputs)  # 前向传播loss = criterion(outputs, labels)  # 计算损失loss.backward()  # 反向传播optimizer.step()  # 参数更新total_loss += loss.item()  # 累积损失total_accuracy += compute_accuracy(outputs, labels)  # 累积准确率avg_loss = total_loss / len(train_loader)  # 平均损失avg_accuracy = total_accuracy / len(train_loader)  # 平均准确率print(f"Epoch {epoch+1}/{epochs}, Loss: {avg_loss:.4f}, Accuracy: {avg_accuracy:.4f}")

8.4 增加验证过程

通常，在每个 epoch 的末尾会用验证集进行评估，以监控模型的泛化性能。

# 验证过程
def validate_model(model, val_loader, criterion):model.eval()  # 设置为评估模式total_loss = 0.0total_accuracy = 0.0with torch.no_grad():  # 禁用梯度计算for inputs, labels in val_loader:outputs = model(inputs)loss = criterion(outputs, labels)total_loss += loss.item()total_accuracy += compute_accuracy(outputs, labels)avg_loss = total_loss / len(val_loader)avg_accuracy = total_accuracy / len(val_loader)return avg_loss, avg_accuracy# 在训练中加入验证
for epoch in range(epochs):# 训练model.train()train_loss = 0.0train_accuracy = 0.0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()train_loss += loss.item()train_accuracy += compute_accuracy(outputs, labels)# 验证val_loss, val_accuracy = validate_model(model, test_loader, criterion)# 打印训练和验证结果print(f"Epoch {epoch+1}/{epochs}")print(f"  Training  - Loss: {train_loss/len(train_loader):.4f}, Accuracy: {train_accuracy/len(train_loader):.4f}")print(f"  Validation - Loss: {val_loss:.4f}, Accuracy: {val_accuracy:.4f}")

8.5 可视化训练曲线

为了更清楚地观察训练过程中的趋势，可以通过可视化工具绘制损失和准确率曲线：

import matplotlib.pyplot as plt# 记录损失和准确率
train_losses, val_losses = [], []
train_accuracies, val_accuracies = [], []for epoch in range(epochs):# 训练model.train()train_loss = 0.0train_accuracy = 0.0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()train_loss += loss.item()train_accuracy += compute_accuracy(outputs, labels)# 验证val_loss, val_accuracy = validate_model(model, test_loader, criterion)# 保存结果train_losses.append(train_loss / len(train_loader))val_losses.append(val_loss)train_accuracies.append(train_accuracy / len(train_loader))val_accuracies.append(val_accuracy)# 绘制曲线
plt.figure(figsize=(12, 5))# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(range(epochs), train_losses, label='Train Loss')
plt.plot(range(epochs), val_losses, label='Validation Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Loss Curve')# 准确率曲线
plt.subplot(1, 2, 2)
plt.plot(range(epochs), train_accuracies, label='Train Accuracy')
plt.plot(range(epochs), val_accuracies, label='Validation Accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Accuracy Curve')plt.tight_layout()
plt.show()