ACM MM 2023 | 基于点集和偏置的单阶段多人人体解析方法

本文为我们刚刚被ACM MM2023接收的工作“Single-Stage Multi-Human Parsing via Point Sets and Center-Based Offsets”的分享报告。

论文链接: https://arxiv.org/abs/2304.11356

01. 前言

EVOL创新团队与北京邮电大学共同提出多人人体解析方法SMP,利用点集与基于其的偏置向量实现对人体部位的表示。该方法设计了一种单阶段的人体部位实例的表示方法,使得网络能以更加简单更加直观地对人体进行解析。该方法还提出了两种可插入模块RFRM和MIRM,分别从实例和语义两个方向增强网络的特征提取能力,以缓解人体解析任务中的目标不规则和长尾分布问题。该论文已被ACM MM 2023接收。

02. 背景与动机

实例感知多人解析(IAMHP)旨在根据语义将人体各部分分割开来,并按实例对其进行分组。与语义分割和实例分割相比,它更具挑战性。因为对于图片中的每个像素,不仅需要判断其部位级别的语义标签,还需要判断人类级别的实例标签

现有的多人解析工作大致可以分为两类:自下而上和自上而下的方法。自上而下的方法通常先检测出人体实例,然后针对检测出的人体实例逐一地进行单人人体解析。自下而上的方法相反先解析出图中所有的部位,然后利用人体实例分割结果或边界预测结果对部位进行组合。尽管取得了不错的效果,但也他们也承受着两阶段带来的复杂的后处理和冗余计算等问题。

为了解决这些问题,我们希望以一种更为简洁的方式来表示人体实例和部位实例之间的关系。

在本文中,我们探索了用点集和基于中心的偏移来理解人体的可能性。具体而言,点集由人体重心和部位重心组成,基于中心的偏移是从人体重心到部位重心的偏置向量。通过这种表示,我们实现了一个单阶段多人解析(SMP)框架,该框架省略了耗时的ROI和Grouping过程。

此外,我们将多人人体解析(MHP)任务解耦成了4个子任务——人体实例定位部位实例定位部位实例分割两种重心之间从属关系映射的预测

由于MHP数据集有长尾分布和实例尺度差异大的问题,我们还提出了精细特征保留模块(RFRM)和掩膜兴趣重分类模块(MIRM),前者利用掩膜特征空间中实例特征内部的相关性作为一种注意力加强对实例整体特征的提取能力,后者参考ROI Align思路,利用对掩膜结果进行特征对齐,排除实例尺度对语义特征提取的干扰。基于上述思路,我们的SMP方法在MHPv2数据集和Densepose COCO数据集上都达到了最佳性能。同时,SMP还具有目前最快的推理速度。

03. 方法与实现

3.1 概述

我们的单阶段多人解析 (SMP) 框架的概述如图 2 所示。首先,我们将图像发送到特征金字塔网络 (FPN)以生成不同大小的特征图。然后我们利用中心头、偏移头、部位头对特征图进行处理,以预测人体位置和掩码信息。最后,我们可以通过三个头部的输出获得多人解析结果。

  • 中心头旨在预测每个独立人体实例的位置,以完成人体实例定位的子任务。为了避免重叠的中心问题,我们利用可见掩码的重心来表示每个实例。
  • 在偏置头中,我们预测人体重心到其相应部分实例的重心的偏移量以估计映射关系,以完成两种重心之间从属关系映射的预测的子任务
  • 部位头的目的是预测图片中每个独立部位实例的重心位置并预测他们的精细掩膜。部位头内部可以被分为三个子头,类别定位子头,部位核子头和掩膜特征头。与条件卷积思路类似,我们为图片中每个部位实例生成其对应的卷积核,并利用掩膜特征计算部位的精细掩膜。类别定位子头完成了部位实例定位的子任务,而部位核子头与掩膜特征头共同完成了部位实例分割的子任务

最终,多人人体解析的三个要素————人体实例部位实例二者从属关系都可以通过模型获得,四个子任务也同时完成。在推理阶段,只需要简单的索引出每个人体实例对应的部位卷积核并与特征图进行卷积即可获得每个人的人体解析结果。

3.2 特征增强模块

在此基础上,SMP仍旧有着无法解决的长尾分布小目标分类的问题。

为了解决上述问题,从实例角度,我们提出了细化特征保留 (RFR) 模块

RFR模块的主要思想是利用掩码特征作为注意力来指导类别分支的学习。部位头通过条件卷积完成实例分割,输出分割图中每个像素的值,实际上是卷积核和特征图上的相应特征的内积相似度。通过卷积特征图的自相关计算,我们可以得到实例在相应位置的相似度自注意力图。自注意力图,即掩码注意力,具有优越的实例指导能力,通过将类别特征与每个位置的掩码注意力加权相乘,我们可以获得一个新的细化特征图。我们利用新特征作为偏移量输入,进行warp操作,引导模型自适应地获取更多的实例信息。

此外,我们的模型可以利用掩膜兴趣重分类模块(MIRM) 将分割输出作为兴趣区域 (ROI) 以实现二次分类。MIR模块是独立的,可以利用其他分支的输出结果。我们选择特征金字塔的融合特征作为输入特征,通过连续的卷积层进行特征空间的变换,并使用语义分割标签进行监督使其学习潜在的语义特征。我们将部位头生成的掩码作为 ROI 获得局部特征。通过大小为14的ROI Align将特征插值到固定大小,并采用核大小为14的卷积层对其再次进行特征变换。最后,采用两个连续的全连接层输出分类结果。

04. 实验结果

我们在MHPv2,Densepose COCO两个数据集中进行了实验。相比于其他的多人人体解析方法,SMP以最快的推理速度实现了SOTA结果。

05. 总结

本文提出用点集和基于中心的偏移量来理解人类,引出了一个新的框架,即SMP,一个单阶段解决实例感知的多人解析任务的新方法。具体来说,利用人体部位重心中的点特征来生成部位实例的掩码。人体中心到部分重心的偏移量用于统一人类实例。为了增强实例特征的表示进行分类,我们提出了细化特征保留(RFR)模块,该模块可以利用掩码特征生成掩码注意来指导特征提取。对于由于类间相似度高和长尾分布造成的分类错误问题,我们提出了兴趣重分类掩码(MIR)模块,该模块使用生成的掩码作为感兴趣区域来细化分类结果。SMP具有快速推理、高精度和简洁的优点,对以人为中心的相关研究有推动作用。

EVOL创新团队成员介绍
EVOL联合创新团队负责人:
赵健(军事科学院),博士、北京图象图形学学会理事,入选北京市科协/中国科协“青年人才托举工程”,曾获吴文俊自然科学奖一等奖,研究方向为无约束视觉感知理解。
个人主页: https://zhaoj9014.github.io/
金磊(北京邮电大学),博士、北京邮电大学特聘副研究员,研究方向包括人体姿态估计、人体解析、人体行为识别等。
个人主页: https://teacher.bupt.edu.cn/jin

  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/135338.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IM即时通讯系统[SpringBoot+Netty]——梳理(总)

文章目录 一、为什么要自研一套即时通讯系统1、实现一个即时通讯系统有哪些方式1.1、使用开源产品做二次开发或直接使用1.2、使用付费的云服务商1.3、自研 2、如何自研一套即时通讯系统2.1、早期即时通讯系统是如何实现2.2、一套即时通讯系统的基本组成2.3、当下的即时通讯系统…

华为云云耀云服务器L实例评测|cento7.9在线使用cloudShell下载rpm解压包安装mysql并开启远程访问

文章目录 ⭐前言⭐使用华为cloudShell连接远程服务器💖 进入华为云耀服务器控制台💖 选择cloudShell ⭐安装mysql压缩包💖 wget下载💖 tar解压💖 安装步骤💖 初始化数据库💖 修改密码&#x1f4…

一周技术杂谈2023_09_11--2023_09_15

平铺直述! 1、linux 64位系统可以运行32位linux程序。需要在linux64位系统新增一些设置: sudo dpkg --add-architecture i386 sudo apt-get update sudo apt-get install libc6:i386 libncurses5:i386 libstdc6:i386 其他已验证:32位用到的系统库无需替换…

IDEA使用技巧

1. 打开或导入别人的项目,找不到运行和调度的方法,如图所示(原因修改IDEA Mavem的执行路径) IDEA Maven配置的设定如下图所示: 程序启动类不能执行和调试如图所示 解决方案如下: 修改IDEA的Maven的路径,…

【JavaEE】多线程(三)

多线程(三) 续上文,多线程(二),我们已经讲了 创建线程Thread的一些重要的属性和方法 那么接下来,我们继续来体会了解多线程吧~ 文章目录 多线程(三)线程启动 startsta…

【Node.js】模块化:

文章目录 1、模块化的基本概念2、Node.js 中模块化【1】Node.js 中模块的分类【2】加载模块【3】模块作用域【4】向外共享模块作用域中的成员【5】模块化规范 3、npm与包(包/依赖/插件)【1】包的基本知识:【2】开发属于自己的包【3】发布包 4…

软考 - 系统架构设计师如何备考?文中含资料分享和备考心得

前言 我参加了2022年11月份的《软考-系统架构设计师》考试,在两个多月的备考之中我总结了一些学习经验和答题技巧,现毫无保留的分享给大家,希望对报考的同学们有所帮助。 一、软考的作用 1、以考代评(国企、事业单位、公务员评职…

SpringMvc第六战-【SpringMvcJSON返回异常处理机制】

前言: 小编讲述了:JSR303的概念,应用场景和在具体实例的使用;和拦截器的应用 今天小编来讲述的为cJSON返回&异常处理机制,json返回就不用多说,毕竟大部分数据都是通过Json来传递数据的,异…

常见音视频、流媒体开源编解码库及官网(四十一)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:Android…

请问一下就是业务概念模型和业务逻辑模型有啥关系

请问一下就是业务概念模型和业务逻辑模型有啥关系? 业务概念模型和业务逻辑模型是业务建模的两个关键组成部分,两者密切相关但又有所不同。 1.业务概念模型:这是对业务术语、定义和关系的一种抽象表示。它是从业务专家那里获得的知识&#…

C++基础-类和对象(下)

文章目录 前言一、构造深入1.初始化列表2.隐式类型转换1.隐式类型转换2.explicit 3.委托构造 二、类的静态成员1.静态成员声明2.静态成员定义3.静态成员特性 三、重载运算符和类型转化1.关系及算数运算符重载2.递增递减运算符重载及如何区分3.赋值运算符重载4.重载输入输出运算…

大数据Flink(七十七):SQL窗口的Over Windows

文章目录 SQL窗口的Over Windows 一、​​​​​​​时间区间聚合

选开源还是闭源?2区16天录用!国人友好,期刊指标优秀

在本期分享前,鉴于近期多位作者的困惑,小编想分享开源期刊和闭源期刊的含义、区别、以及如何选择? 概念区别 “开源期刊”即开放存取。简称OA(Open access),是指将学术信息放在互联网上供所有人共享,不需…

我学编程全靠B站了,真香(第一期)

你好,我是Martin。 我是就读于B站大学2020届的Martin同学,反正我学习计算机真的是全靠 B 站了。 我是个刷视频狂魔,B站收藏夹里也收藏了很多编程类视频, 比如C/C、Go语言、操作系统、数据结构和算法、计算机网络、数据库、Pyth…

一阶低通滤波器滞后补偿算法

一阶低通滤波器的推导过程和双线性变换算法请查看下面文章链接: PLC算法系列之数字低通滤波器(离散化方法:双线性变换)_双线性离散化_RXXW_Dor的博客-CSDN博客PLC信号处理系列之一阶低通(RC)滤波器算法_RXXW_Dor的博客-CSDN博客_rc滤波电路的优缺点1、先看看RC滤波的优缺点…

【码银送书第七期】七本考研书籍

八九月的朋友圈刮起了一股晒通知书潮,频频有大佬晒出“研究生入学通知书”,看着让人既羡慕又焦虑。果然应了那句老话——比你优秀的人,还比你努力。 心里痒痒,想考研的技术人儿~别再犹豫了。小编咨询了一大波上岸的大佬&#xff…

Go并发可视化解释 – select语句

上周,我发布了一篇关于如何直观解释Golang中通道(Channel)的文章。如果你对通道仍然感到困惑,请先查看那篇文章。 Go并发可视化解释 — Channel 作为一个快速复习:Partier、Candier和Stringer经营着一家咖啡店。Partie…

php高级 TP+Redis实现发布订阅和消息推送案例实战

Redis 的发布-订阅模型是一种消息通信模式,它允许客户端之间通过特定的频道进行通信。在这种模型中,有些客户端负责发布消息(发布者),而其他客户端则订阅它们感兴趣的频道并接收这些消息(订阅者&#xff09…

games101 作业2

题目 光栅化一个三角形 1. 创建三角形的 2 维 bounding box。 2. 遍历此 bounding box 内的所有像素(使用其整数索引)。然后,使用像素中心的屏幕空间坐标来检查中心点是否在三角形内。 3. 如果在内部,则将其位置处的插值深度值 (…