本文为我们刚刚被ACM MM2023接收的工作“Single-Stage Multi-Human Parsing via Point Sets and Center-Based Offsets”的分享报告。
论文链接: https://arxiv.org/abs/2304.11356
01. 前言
EVOL创新团队与北京邮电大学共同提出多人人体解析方法SMP,利用点集与基于其的偏置向量实现对人体部位的表示。该方法设计了一种单阶段的人体部位实例的表示方法,使得网络能以更加简单更加直观地对人体进行解析。该方法还提出了两种可插入模块RFRM和MIRM,分别从实例和语义两个方向增强网络的特征提取能力,以缓解人体解析任务中的目标不规则和长尾分布问题。该论文已被ACM MM 2023接收。
02. 背景与动机
实例感知多人解析(IAMHP)旨在根据语义将人体各部分分割开来,并按实例对其进行分组。与语义分割和实例分割相比,它更具挑战性。因为对于图片中的每个像素,不仅需要判断其部位级别的语义标签,还需要判断人类级别的实例标签。
现有的多人解析工作大致可以分为两类:自下而上和自上而下的方法。自上而下的方法通常先检测出人体实例,然后针对检测出的人体实例逐一地进行单人人体解析。自下而上的方法相反先解析出图中所有的部位,然后利用人体实例分割结果或边界预测结果对部位进行组合。尽管取得了不错的效果,但也他们也承受着两阶段带来的复杂的后处理和冗余计算等问题。
为了解决这些问题,我们希望以一种更为简洁的方式来表示人体实例和部位实例之间的关系。
在本文中,我们探索了用点集和基于中心的偏移来理解人体的可能性。具体而言,点集由人体重心和部位重心组成,基于中心的偏移是从人体重心到部位重心的偏置向量。通过这种表示,我们实现了一个单阶段多人解析(SMP)框架,该框架省略了耗时的ROI和Grouping过程。
此外,我们将多人人体解析(MHP)任务解耦成了4个子任务——人体实例定位,部位实例定位,部位实例分割和两种重心之间从属关系映射的预测。
由于MHP数据集有长尾分布和实例尺度差异大的问题,我们还提出了精细特征保留模块(RFRM)和掩膜兴趣重分类模块(MIRM),前者利用掩膜特征空间中实例特征内部的相关性作为一种注意力加强对实例整体特征的提取能力,后者参考ROI Align思路,利用对掩膜结果进行特征对齐,排除实例尺度对语义特征提取的干扰。基于上述思路,我们的SMP方法在MHPv2数据集和Densepose COCO数据集上都达到了最佳性能。同时,SMP还具有目前最快的推理速度。
03. 方法与实现
3.1 概述
我们的单阶段多人解析 (SMP) 框架的概述如图 2 所示。首先,我们将图像发送到特征金字塔网络 (FPN)以生成不同大小的特征图。然后我们利用中心头、偏移头、部位头对特征图进行处理,以预测人体位置和掩码信息。最后,我们可以通过三个头部的输出获得多人解析结果。
- 中心头旨在预测每个独立人体实例的位置,以完成人体实例定位的子任务。为了避免重叠的中心问题,我们利用可见掩码的重心来表示每个实例。
- 在偏置头中,我们预测人体重心到其相应部分实例的重心的偏移量以估计映射关系,以完成两种重心之间从属关系映射的预测的子任务。
- 部位头的目的是预测图片中每个独立部位实例的重心位置并预测他们的精细掩膜。部位头内部可以被分为三个子头,类别定位子头,部位核子头和掩膜特征头。与条件卷积思路类似,我们为图片中每个部位实例生成其对应的卷积核,并利用掩膜特征计算部位的精细掩膜。类别定位子头完成了部位实例定位的子任务,而部位核子头与掩膜特征头共同完成了部位实例分割的子任务。
最终,多人人体解析的三个要素————人体实例,部位实例,二者从属关系都可以通过模型获得,四个子任务也同时完成。在推理阶段,只需要简单的索引出每个人体实例对应的部位卷积核并与特征图进行卷积即可获得每个人的人体解析结果。
3.2 特征增强模块
在此基础上,SMP仍旧有着无法解决的长尾分布和小目标分类的问题。
为了解决上述问题,从实例角度,我们提出了细化特征保留 (RFR) 模块。
RFR模块的主要思想是利用掩码特征作为注意力来指导类别分支的学习。部位头通过条件卷积完成实例分割,输出分割图中每个像素的值,实际上是卷积核和特征图上的相应特征的内积相似度。通过卷积特征图的自相关计算,我们可以得到实例在相应位置的相似度自注意力图。自注意力图,即掩码注意力,具有优越的实例指导能力,通过将类别特征与每个位置的掩码注意力加权相乘,我们可以获得一个新的细化特征图。我们利用新特征作为偏移量输入,进行warp操作,引导模型自适应地获取更多的实例信息。
此外,我们的模型可以利用掩膜兴趣重分类模块(MIRM) 将分割输出作为兴趣区域 (ROI) 以实现二次分类。MIR模块是独立的,可以利用其他分支的输出结果。我们选择特征金字塔的融合特征作为输入特征,通过连续的卷积层进行特征空间的变换,并使用语义分割标签进行监督使其学习潜在的语义特征。我们将部位头生成的掩码作为 ROI 获得局部特征。通过大小为14的ROI Align将特征插值到固定大小,并采用核大小为14的卷积层对其再次进行特征变换。最后,采用两个连续的全连接层输出分类结果。
04. 实验结果
我们在MHPv2,Densepose COCO两个数据集中进行了实验。相比于其他的多人人体解析方法,SMP以最快的推理速度实现了SOTA结果。
05. 总结
本文提出用点集和基于中心的偏移量来理解人类,引出了一个新的框架,即SMP,一个单阶段解决实例感知的多人解析任务的新方法。具体来说,利用人体部位重心中的点特征来生成部位实例的掩码。人体中心到部分重心的偏移量用于统一人类实例。为了增强实例特征的表示进行分类,我们提出了细化特征保留(RFR)模块,该模块可以利用掩码特征生成掩码注意来指导特征提取。对于由于类间相似度高和长尾分布造成的分类错误问题,我们提出了兴趣重分类掩码(MIR)模块,该模块使用生成的掩码作为感兴趣区域来细化分类结果。SMP具有快速推理、高精度和简洁的优点,对以人为中心的相关研究有推动作用。
EVOL创新团队成员介绍
EVOL联合创新团队负责人:
赵健(军事科学院),博士、北京图象图形学学会理事,入选北京市科协/中国科协“青年人才托举工程”,曾获吴文俊自然科学奖一等奖,研究方向为无约束视觉感知理解。
个人主页: https://zhaoj9014.github.io/
金磊(北京邮电大学),博士、北京邮电大学特聘副研究员,研究方向包括人体姿态估计、人体解析、人体行为识别等。
个人主页: https://teacher.bupt.edu.cn/jin
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区