文献阅读笔记 | ||
简介 | 题目 | End-to-end people detection in crowded scenes |
作者 | Russell Stewart, Mykhaylo Andriluka | |
原文链接 | https://arxiv.org/pdf/1506.04878.pdf | |
关键词 | Null | |
研究问题 | 当前的人员检测器要么以滑动窗口的方式扫描图像,要么对一组离散的提议进行分类。 这项任务是具有挑战性的,因为它既需要将物体从背景中区分开来,又需要正确估计不同物体的数量和它们的位置。 要避免对同一对象的多次检测。 对象实例重叠时根据边界框的属性进行推理往往会得出错误的结果。 拥挤场景中,多个人常常近距离出现,使得区分附近的个体变得尤为困难。 | |
研究方法 | 提出了一种基于图像解码的人员检测模型。要求以一幅图像作为输入,从而能够直接输出一组不同的检测假设。由于是联合生成预测,因此不需要非极大值抑制等常见的后处理步骤。 本文贡献一个使用一个新的损失函数来端到端地训练模型,该损失函数对检测集进行操作。 另一个技术贡献是表明可以成功地利用LSTM单元链将图像内容解码为可变长度的相干实值输出。 图像解码:首先使用来自谷歌公司的表达性图像特征。然后使用该图像的中间表示使用lstm进行训练得到一组预测对象。 | |
研究结论 | 该方法在拥挤场景中检测人群这一具有挑战性的任务上非常有效。能够生成任意距离的预测。 | |
额外知识 | Bounding box regression:Region Proposal经过fine-tuning跟Ground Truth更加接近的方法 人脸检测中的bounding box regression详解-CSDN博客 |