（论文阅读30/100）Convolutional Pose Machines

30.文献阅读笔记CPMs
简介	题目	Convolutional Pose Machines
	作者	Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, CVPR, 2016.
	原文链接	https://arxiv.org/pdf/1602.00134.pdf
	关键词	Convolutional Pose Machines（CPMs）、articulated pose estimation
	研究问题	Pose Machines provide a sequential prediction framework for learning rich implicit spatial models. Pose Machines为了学习丰富的隐式空间模型提供了序列预测框架。将CNN应用于pose machine framework 梯度消失的问题：反向传播梯度在网络的多个层中传播时强度会减弱。增大感受野，一般有如下几种方式：增大pool，但是这种做法对图片额外添加的信息过多，会牺牲精度；增大卷积核，但这种方式会增加参数量；增加卷积层，但卷积层过多会造成网络的负担，造成梯度消失等问题
	研究方法	将CNN应用于pose machine framework 学习图像特征和图像相关的空间模型的task of pose estimation（姿态估计） CNN直接对来自上阶段的belief maps进行操作，对零件位置做出越来越精确的估计，而无需明确的图形模型式推理。提供了一个自然的学习目标函数，强制执行中间监督，补充反向传播梯度并调节学习过程，解决了梯度消失的难题。图像特征和前一阶段生成的belief maps都被用作输入。belief maps为后续阶段提供了每个部件位置空间不确定性的非参数编码，使 CPM 能够学习丰富的、与图像相关的部件间关系空间模型。不使用图形模型，对belief maps进行操作，所以整个架构完全可微分，可以端对端训练。为了捕捉longrange interactions：需要较大的感受野 Pose machines 和cnn pose machines对比输入：裁剪图像归一化为368 × 368 网络结构：五个卷积层和两个1 × 1卷积层组成的网络结构（全卷积结构） 2c：第一阶段仅从局部图像证据中预测部分信念。证据是局部的，因为网络第一阶段的感受野被约束在输出像素位置周围的一个小块上。以一个较小的感受野对图像进行局部检查。如果人体有p个关节点，那么belief map有p+1层（还有背景层）其实就是heatmaps，各通道表示各关键点在每个像素位置处的概率 2d：第二阶段网络的输出层获得足够大的感受野，以便学习各部分之间潜在的复杂和long-range correlations。还要输入一个center map。center map是高斯响应，构造响应图的真值。增大感受野：增大stride，确实stride越大感受野相应的也增大，并且论文中指出，在高精度区域，8stride和4stride表现一样好。
	研究结论	由卷积网络组成的序列架构能够通过在阶段之间交流日益精炼的不确定性保持信念来隐式地学习姿态的空间模型。在所有的主要基准上都达到了最先进的准确性。
	创新不足	多人检测失败
	额外知识	高斯响应