卷积神经网络框架模型搭建
目录
- 卷积神经网络框架模型搭建
- 1 卷积神经网络模型
- 1.1 卷积神经网络
- 1.2 卷积层(Convolutional Layer)
- 1.2.1 输出特征图
- 1.3 激活函数
- 1.4 池化层(Pooling Layer)
- 1.5 全连接层(Fully Connected Layer)
- 2 框架模型搭建
- 2.1 框架确定
- 2.2 框架函数定义
- 3 代码测试
1 卷积神经网络模型
1.1 卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)是一种专门用于处理具有网格结构数据(如图像、视频)的深度学习模型卷积神经网络通过卷积层、池化层和全连接层的组合,能够高效地提取图像特征,并在计算机视觉任务中表现出色。
1.2 卷积层(Convolutional Layer)
卷积操作是 CNN 的核心,通过卷积核(Filter)提取局部特征,卷积核是一个小的权重矩阵,在输入数据上滑动并计算点积,每个卷积核会生成一个输出通道,多个卷积核可以提取多种特征。。
1.2.1 输出特征图
输出特征图尺寸由输入尺寸(h,w)、卷积核尺寸(k,k)、步长(s)、填充§决定:
输出长度:H1 = (h - k + 2p) / s + 1
输出宽度:W1 = (w - k + 2p) / s + 1
其中当k,s,p为512时输出的特征图尺寸与原图相同
1.3 激活函数
在卷积操作后,通常会使用激活函数引入非线性,进行非线性映射。
常用的激活函数包括:
ReLU:f(x) = max(0, x)
Sigmoid:f(x) = 1 / (1 + e^(-x))
1.4 池化层(Pooling Layer)
池化操作用于降采样,减少特征图的尺寸,减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合,同时保留重要信息,池化层通常不引入额外的参数。
- 常用的池化方法包括:
- 最大池化(Max Pooling):取局部区域的最大值。
- 平均池化(Average Pooling):取局部区域的平均值。
1.5 全连接层(Fully Connected Layer)
在卷积和池化操作后,特征图会被展平并输入到全连接层,全连接层用于将提取的特征映射到最终的输出(如分类结果),
卷积和池化操作可以多次操作。
2 框架模型搭建
2.1 框架确定
包含 3 个卷积块和 1 个全连接层,用于 MNIST 手写数字分类任务。卷积块包括卷积、激活以及池化操作。
卷积块1:卷积、激活、池化
卷积块2:卷积、激活、卷积、激活、池化
卷积块3:卷积、激活
2.2 框架函数定义
- 卷积块:nn.Sequential(),括号内可以进行卷积、激活以及池化操作。
- 卷积:nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2)
- in_channels=1,输入通道数灰度图像为 1,rgb为3
- out_channels=16,输出通道数
- kernel_size=5,卷积核大小(5x5)
- stride=1,步幅
- padding=2 ,边缘填充数,为 2,保证输出尺寸与输入尺寸相同
- 激活函数:nn.ReLU(),ReLU 激活函数
- 池化:nn.MaxPool2d(kernel_size=2), 最大池化层
- kernel_size=2,池化核大小为 2x2
- 全连接:nn.Linear(64 * 7 * 7, 10),(输入个数,输出个数)
- 展平操作: x.view(x.size(0), -1),将特征图展平,为一维向量
- x.size(0):批次大小。
- -1:自动计算展平后的维度。
class CNN(nn.Module):def __init__(self):super(CNN,self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2,),nn.ReLU(),nn.MaxPool2d(kernel_size=2),)self.conv2 = nn.Sequential(nn.Conv2d(16,32,5,1,2),nn.ReLU(),nn.Conv2d(32, 32, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2),)self.conv3 = nn.Sequential(nn.Conv2d(32, 64, 5, 1, 2),nn.ReLU(),)self.out = nn.Linear(64*7*7,10)def forward(self,x):x =self.conv1(x)x = self.conv2(x)x = self.conv3(x)x = x.view(x.size(0),-1)output = self.out(x)return output
3 代码测试
代码展示:
import torchprint(torch.__version__)
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensortrain_data = datasets.MNIST(root = 'data',train = True,download = True,transform = ToTensor()
)
test_data = datasets.MNIST(root = 'data',train = False,download = True,transform = ToTensor()
)
print(len(train_data))
print(len(test_data))train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader= DataLoader(test_data, batch_size=64)
device = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'
print(f'Using {device} device')class CNN(nn.Module):def __init__(self):super(CNN,self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2,),nn.ReLU(),nn.MaxPool2d(kernel_size=2),)self.conv2 = nn.Sequential(nn.Conv2d(16,32,5,1,2),nn.ReLU(),nn.Conv2d(32, 32, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2),)self.conv3 = nn.Sequential(nn.Conv2d(32, 64, 5, 1, 2),nn.ReLU(),)self.out = nn.Linear(64*7*7,10)def forward(self,x):x =self.conv1(x)x = self.conv2(x)x = self.conv3(x)x = x.view(x.size(0),-1)output = self.out(x)return outputmodel = CNN().to(device)
print(model)
optimizer = torch.optim.Adam(model.parameters(),lr=0.001)
loss_fn = nn.CrossEntropyLoss()
def train(dataloader,model,loss_fn,optimizer):model.train()batch_size_num = 1for x,y in dataloader:x,y = x.to(device),y.to(device)pred = model.forward(x)loss = loss_fn(pred,y)optimizer.zero_grad()loss.backward()optimizer.step()loss_value = loss.item()if batch_size_num %100 ==0:print(f'loss: {loss_value:>7f} [number: {batch_size_num}]')batch_size_num +=1def test(dataloader,model,loss_fn):size = len(dataloader.dataset)num_batches = len(dataloader)model.eval()test_loss,correct = 0,0with torch.no_grad():for x,y in dataloader:x,y = x.to(device),y.to(device)pred = model.forward(x)test_loss += loss_fn(pred,y).item()correct +=(pred.argmax(1) == y).type(torch.float).sum().item()a = (pred.argmax(1)==y)b = (pred.argmax(1)==y).type(torch.float)test_loss /=num_batchescorrect /= sizeprint(f'test result: \n Accuracy: {(100*correct)}%, Avg loss:{test_loss}')
e = 8
for i in range(e):print(f'e: {i+1}\n------------------')train(train_dataloader, model, loss_fn, optimizer)
print('done')test(test_dataloader, model, loss_fn)
运行结果: