深度学习之卷积神经网络框架模型搭建

卷积神经网络框架模型搭建

卷积神经网络框架模型搭建
- 1 卷积神经网络模型
- - 1.1 卷积神经网络
  - 1.2 卷积层（Convolutional Layer）
  - - 1.2.1 输出特征图
  - 1.3 激活函数
  - 1.4 池化层（Pooling Layer）
  - 1.5 全连接层（Fully Connected Layer）
- 2 框架模型搭建
- - 2.1 框架确定
  - 2.2 框架函数定义
- 3 代码测试

1 卷积神经网络模型

1.1 卷积神经网络

卷积神经网络（Convolutional Neural Network，CNN）是一种专门用于处理具有网格结构数据（如图像、视频）的深度学习模型卷积神经网络通过卷积层、池化层和全连接层的组合，能够高效地提取图像特征，并在计算机视觉任务中表现出色。

1.2 卷积层（Convolutional Layer）

卷积操作是 CNN 的核心，通过卷积核（Filter）提取局部特征，卷积核是一个小的权重矩阵，在输入数据上滑动并计算点积，每个卷积核会生成一个输出通道，多个卷积核可以提取多种特征。。

1.2.1 输出特征图

输出特征图尺寸由输入尺寸（h，w）、卷积核尺寸(k,k)、步长(s)、填充§决定：
输出长度：H1 = (h - k + 2p) / s + 1
输出宽度：W1 = (w - k + 2p) / s + 1
其中当k,s,p为512时输出的特征图尺寸与原图相同

1.3 激活函数

在卷积操作后，通常会使用激活函数引入非线性，进行非线性映射。
常用的激活函数包括：
ReLU：f(x) = max(0, x)
Sigmoid：f(x) = 1 / (1 + e^(-x))

1.4 池化层（Pooling Layer）

池化操作用于降采样，减少特征图的尺寸，减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合，同时保留重要信息，池化层通常不引入额外的参数。

常用的池化方法包括：
- 最大池化（Max Pooling）：取局部区域的最大值。
- 平均池化（Average Pooling）：取局部区域的平均值。

1.5 全连接层（Fully Connected Layer）

在卷积和池化操作后，特征图会被展平并输入到全连接层，全连接层用于将提取的特征映射到最终的输出（如分类结果）,
卷积和池化操作可以多次操作。

2 框架模型搭建

2.1 框架确定

包含 3 个卷积块和 1 个全连接层，用于 MNIST 手写数字分类任务。卷积块包括卷积、激活以及池化操作。
卷积块1：卷积、激活、池化
卷积块2：卷积、激活、卷积、激活、池化
卷积块3：卷积、激活

2.2 框架函数定义

卷积块：nn.Sequential(),括号内可以进行卷积、激活以及池化操作。
卷积：nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2)
- in_channels=1,输入通道数灰度图像为 1，rgb为3
- out_channels=16,输出通道数
- kernel_size=5,卷积核大小（5x5）
- stride=1,步幅
- padding=2 ，边缘填充数，为 2，保证输出尺寸与输入尺寸相同
激活函数：nn.ReLU()，ReLU 激活函数
池化：nn.MaxPool2d(kernel_size=2), 最大池化层
- kernel_size=2，池化核大小为 2x2
全连接：nn.Linear(64 * 7 * 7, 10)，（输入个数，输出个数）
展平操作： x.view(x.size(0), -1)，将特征图展平，为一维向量
- x.size(0)：批次大小。
- -1：自动计算展平后的维度。

class CNN(nn.Module):def __init__(self):super(CNN,self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2,),nn.ReLU(),nn.MaxPool2d(kernel_size=2),)self.conv2 = nn.Sequential(nn.Conv2d(16,32,5,1,2),nn.ReLU(),nn.Conv2d(32, 32, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2),)self.conv3 = nn.Sequential(nn.Conv2d(32, 64, 5, 1, 2),nn.ReLU(),)self.out = nn.Linear(64*7*7,10)def forward(self,x):x =self.conv1(x)x = self.conv2(x)x = self.conv3(x)x = x.view(x.size(0),-1)output = self.out(x)return output

3 代码测试

代码展示：

import torchprint(torch.__version__)
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensortrain_data = datasets.MNIST(root = 'data',train = True,download = True,transform = ToTensor()
)
test_data = datasets.MNIST(root = 'data',train = False,download = True,transform = ToTensor()
)
print(len(train_data))
print(len(test_data))train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader= DataLoader(test_data, batch_size=64)
device = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'
print(f'Using {device} device')class CNN(nn.Module):def __init__(self):super(CNN,self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2,),nn.ReLU(),nn.MaxPool2d(kernel_size=2),)self.conv2 = nn.Sequential(nn.Conv2d(16,32,5,1,2),nn.ReLU(),nn.Conv2d(32, 32, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2),)self.conv3 = nn.Sequential(nn.Conv2d(32, 64, 5, 1, 2),nn.ReLU(),)self.out = nn.Linear(64*7*7,10)def forward(self,x):x =self.conv1(x)x = self.conv2(x)x = self.conv3(x)x = x.view(x.size(0),-1)output = self.out(x)return outputmodel = CNN().to(device)
print(model)
optimizer = torch.optim.Adam(model.parameters(),lr=0.001)
loss_fn = nn.CrossEntropyLoss()
def train(dataloader,model,loss_fn,optimizer):model.train()batch_size_num = 1for x,y in dataloader:x,y = x.to(device),y.to(device)pred = model.forward(x)loss = loss_fn(pred,y)optimizer.zero_grad()loss.backward()optimizer.step()loss_value = loss.item()if batch_size_num %100 ==0:print(f'loss: {loss_value:>7f}  [number: {batch_size_num}]')batch_size_num +=1def test(dataloader,model,loss_fn):size = len(dataloader.dataset)num_batches = len(dataloader)model.eval()test_loss,correct = 0,0with torch.no_grad():for x,y in dataloader:x,y = x.to(device),y.to(device)pred = model.forward(x)test_loss += loss_fn(pred,y).item()correct +=(pred.argmax(1) == y).type(torch.float).sum().item()a = (pred.argmax(1)==y)b = (pred.argmax(1)==y).type(torch.float)test_loss /=num_batchescorrect /= sizeprint(f'test result: \n Accuracy: {(100*correct)}%, Avg loss:{test_loss}')
e = 8
for i in range(e):print(f'e: {i+1}\n------------------')train(train_dataloader, model, loss_fn, optimizer)
print('done')test(test_dataloader, model, loss_fn)