解决的问题

在CNN没有出现前，图像对人工智能来说非常难处理。
主要原因：

图像要处理的数据量太大了。图像由像素组成，每个像素又由不同颜色组成，一张1000×1000彩色RGB图像需要的参数是1000×1000×3，需要三百万参数左右，普通神经网络会全用全连接方法来学习整幅图像上的特征，处理起来无论是计算还是存储都需要很大的资源。
很难保留图像特征。一张图像做了一些翻转、旋转、缩放的那个操作的时候，线性向量表示会发生很大的变化，机器没法认为是同一张图。而CNN能够让机器“以视觉的方式看待图像数据”，能利用视觉原理捕获到图像数据中的特征。

人类的视觉原理

深度学习是基于神经网络的实现的，而神经网络是一种模仿生物神经网络结构和功能的数学模型或计算模型。所以深度学习的许多研究成果，离不开对大脑认知原理的研究。CNN就借鉴了人类视觉系统层次结构。

人类的视觉原理：瞳孔摄入原始像素信号，然后大脑皮层某些细胞发现边缘和方向，大脑进行抽象判断特征例如物体形状，最后再进一步做出判断例如物体是个人。

下图是一个大脑进行人脸识别的示例图：
在这里插入图片描述
通过模仿人类的视觉原理的特点，来构造神经网络，低层的识别图像初级特征，若干曾底层特征组成更上一层的特征，最终通过多个层级组合，在顶层做出分类判断。

原理

CNN（Convolutional Neural Network，卷积神经网络）结构可以分为3层：卷积层、池化层和全连接层。

卷积层——提取特征

卷积层（Convolutional Layer）：主要作用是提取特征。

过程：一个过滤器（卷积核，Filter）来过滤图像各个小区域，从而得到各个小区域的特征。卷积层通过卷积核的过滤提取出图片中局部的特征，与人类视觉的特征提取类似。
在这里插入图片描述

实际应用的时候，往往会有很多种卷积核，不同卷积核识别不同的图像模式，也就是不同的特征。

池化层——数据降维

池化层（Max Pooling Layer) ：提取某个区域的总结特征，主要作用是下采样(Downsampling)，能够数据降维，但是不会损坏识别结果。

原因：做完卷积后的图像依然很大，1000*1000经过10种卷积核后，得到1000×1000×10，维度非常大。通过池化层，能降低数据大小，同时不会对识别结果造成破坏。

池化层函数：是一种统计函数，通常由最大池化（提取区域内的最大特征）、平均池化（提取区域内的平均特征）、混合池化等。

过程：下图采用最大池化策略，对4×4的矩阵按照2×2进行分开，每个2×2取最大值保留下来。
在这里插入图片描述
好处：除了降低参数量，还有个优点就是能够避免过拟合。池化是提取某个区域的总结特征，是对某个区域全局的考量，减少了对具体像素的依赖性，从而降低了过拟合风险。例如某个点其实是噪声，但是池化总结特征的时候被舍弃了，就没有影响；如果不池化，后续调参的时候还会考虑到噪声。

全连接层——输出结果

全连接层（Fully Connected Layer）：主要作用是分类。通过卷积层和池化层的出来的特征，需要让全连接层对前面总结好的特征做分类判断。

过程：“全连接”前层网络中的所有神经元都与下一层的所有神经元连接。
在这里插入图片描述

应用

图像处理

图像分类（Image Classification）：判断图片中的物体属于哪一个类别。
举例：LeNet-5用来对手写字体识别，被认为是最早的CNN模型，作者LeCun Y也被誉为CNN之父。
图像分割（Image Segmentation）：为图片每个对象创造一个像素级别的掩膜。
分类：语义分割和实例分割。
语义分割（Semantic Segmentation）：为图像中的每个像素分配一个类别，但是同一类别之间的对象不会区分。
实例分割（Instance Segmetation）：实例分割还会对同一类别的对象进行区分。
下图中左边是语义分割，右边是实例分割：
目标检测（Object Detection）：目标定位并且能对目标物体进行分类。
与目标定位的区别：目标定位通常是针对单个检测对象，而目标检测能检测多个对象。此外，图像分类也是针对单个对象的。
与图像分割的区别：目标检测和目标定位都只是定位出目标的位置，通常是用一个方框表示，而图像分割则是每个像素属于那个对象，对象的轮廓会更加清楚。
超分辨率（Super-Resolution）：提高原有图像的分辨率。