本文章是针对论文《2017-CVPR-DenseNet-Densely-Connected Convolutional Networks》中实验的复现,使用了几乎相同的超参数
目录
一、论文中的实验
1.准确率
2.参数效率
3.不同网络结构之间的比较
二、超参数:
三、复现的实验结果:
1.DenseNet201 epoch=40:
2.DenseNet121 epoch=40:
3.ResNet18 epoch=40:
三、结论
1.准确率
2.参数效率
一、论文中的实验
在源论文中,作者使用CIFAR10,CIFAR100和SVHN三个数据集上使用了一些包括DenseNet-BC(以下统称DenseNet)和ReNet的网络进行测试,最终的错误率如下:
1.准确率
在没有数据增强的情况下,DenseNet的准确率显著超过了其他网络,在有数据增强的情况下,也有微弱优势
2.参数效率
在参数数量相等的情况下,DenseNet优更低的错误率,在达到相同错误率时,DenseNEt只用了1/3的参数
3.不同网络结构之间的比较
网络层数越多,错误率越低
二、超参数:
#使用镜像加裁剪的数据增强,以及使用通道均值和标准差对数据进行归一化
transform_train = transforms.Compose([transforms.RandomHorizontalFlip(),transforms.RandomCrop(32, padding=4),transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),
])#使用通道均值和标准差对数据进行归一化
transform_test = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),
])
#载入训练集50000张图片,batchsize=64
trainset = tv.datasets.CIFAR10(root='./data', train=True,download=True, transform=transform_train)
trainloader = t.utils.data.DataLoader(trainset, batch_size=64,shuffle=True, num_workers=0)
#载入测试集10000张图片
testset = tv.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
testloader = t.utils.data.DataLoader(testset, batch_size=64,shuffle=False, num_workers=0)
#使用GPU训练
MyDevice = t.device("cuda:0" if t.cuda.is_available() else "cpu")
# 权重初始化(本论文中直接引用的另一篇论文的权重初始化,这里也是直接拿过来用)
def weights_init(m):classname = m.__class__.__name__if classname.find('Conv') != -1:nn.init.kaiming_normal_(m.weight)elif classname.find('BatchNorm') != -1:nn.init.constant_(m.weight, 1)nn.init.constant_(m.bias, 0)net.apply(weights_init)
net=net.to(MyDevice)
#交叉熵损失函数
criterion = nn.CrossEntropyLoss()
#使用SGD优化,初始学习率为0.1,使用权重衰减为0.0001和0.9的Nesterov动量
optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9, weight_decay=1e-4)
#在训练周期为总周期的50%和75%时,学习率降低10倍
scheduler = MultiStepLR(optimizer, milestones=[20,30], gamma=0.1)
三、复现的实验结果:
论文中给出了DenseNet的四中结构,我们首先分别使用121和201使用同样的超参数进行了测试:
1.DenseNet201 epoch=40:
#直接使用pytorch提供的网络
net = models.densenet121(pretrained=False,num_classes=10).to(MyDevice)
2.DenseNet121 epoch=40:
#直接使用pytorch提供的网络
net = models.densenet121(pretrained=False,num_classes=10).to(MyDevice)
对于ResNet,我们同样使用了最简单ResNet18和较复杂的ResNet101:
3.ResNet18 epoch=40:
net = models.resnet18(pretrained=False,num_classes=10).to(MyDevice)
三、结论
1.准确率
复现的实验准确率与论文中的实验准确率存在差距,原因可能是仍有部分超参数不同,论文中有一些超参数时直接引用的其他论文,没有给出具体参数,比如“We adopt a standard data aug-mentation scheme (mirroring/shifting) that is widely used for these two datasets[11, 13, 17, 22, 28, 20, 32, 34]”,我们没有时间和能力去读额外的论文,所以采用了便于实现的镜像+裁剪来进行数据增强。在权重初始化和定义优化函数时也遇到了类似的问题,所以实验并不是100%复现
2.参数效率
DenseNet的参数效率确实比DenseNet,可以从运行时的程序内存占用大概看出来(PythonApplication9在运行ResNet18,PythonApplication8在运行DenseNet201)