（论文阅读14/100）End-to-end people detection in crowded scenes

文献阅读笔记
简介	题目	End-to-end people detection in crowded scenes
	作者	Russell Stewart, Mykhaylo Andriluka
	原文链接	https://arxiv.org/pdf/1506.04878.pdf
	关键词	Null
	研究问题	当前的人员检测器要么以滑动窗口的方式扫描图像，要么对一组离散的提议进行分类。这项任务是具有挑战性的，因为它既需要将物体从背景中区分开来，又需要正确估计不同物体的数量和它们的位置。要避免对同一对象的多次检测。对象实例重叠时根据边界框的属性进行推理往往会得出错误的结果。拥挤场景中，多个人常常近距离出现，使得区分附近的个体变得尤为困难。
	研究方法	提出了一种基于图像解码的人员检测模型。要求以一幅图像作为输入，从而能够直接输出一组不同的检测假设。由于是联合生成预测，因此不需要非极大值抑制等常见的后处理步骤。本文贡献一个使用一个新的损失函数来端到端地训练模型，该损失函数对检测集进行操作。另一个技术贡献是表明可以成功地利用LSTM单元链将图像内容解码为可变长度的相干实值输出。图像解码：首先使用来自谷歌公司的表达性图像特征。然后使用该图像的中间表示使用lstm进行训练得到一组预测对象。
	研究结论	该方法在拥挤场景中检测人群这一具有挑战性的任务上非常有效。能够生成任意距离的预测。
	额外知识	Bounding box regression：Region Proposal经过fine-tuning跟Ground Truth更加接近的方法人脸检测中的bounding box regression详解-CSDN博客