达摩院开源人脸检测榜首模型MogFace

01

开源

论文链接

https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf

模型&代码

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

简易应用

https://modelscope.cn/studios/damo/face_album/summary

02

背景

人脸检测算法是在一幅图片或者视频序列中检测出来人脸的位置,给出人脸的具体坐标,一般是矩形坐标。它是人脸关键点、属性、编辑、风格化、识别等模块的基础。

本文通过实验观察发现,对应设计出如下三个模块构建出一个高性能的人脸检测器MogFace:

1. 动态标签分配策略(dynamic label assignment)

2. 误检上下文相关性分析(FP context analysis)

3. 金字塔层级监督信号分配(pyramid layer level GT assignment)

该方法的模型在 WIDER FACE 榜单上取得了截至目前将近两年的六项第一。

03

观察

动态标签分配策略

(dynamic label assignment)

为每个anchor点定义cls和reg目标是训练检测器的必要过程,在人脸检测中这个过程称之为标签分配(Label Assignment)。

最近,标签分配吸引了诸多研究人员的注意,在人脸检测及通用物体检测领域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。 

如示例图(a),标签分配过程依赖4个元素。分别是:

1. offline information: 

    a. IoU (anchor与ground-truth框的IoU) ,

    b. CPD (anchor与ground-truth中心点的距离) 

2. online information:

    a. PCS (cls分支对anchor的前景分类概率值) 

    b. PLC (reg分支对anchor的预测坐标值)

8edbabcea42f238b3c548d906cfd0ba6.png

但是,目前的标签分配方法存在三个问题。

1. 若只用offline information做静态标签分配,那么会有很多具备更强回归能力的negative anchor无法被有效利用起来,会导致标签分配策略欠饱和。

2. 若过度信任online information动态调整正负anchor时(如OTA和Hambox),由于online information属于预测信息可信度不高,会导致标签分配策略错误多, 极端情况下会陷入trivial 的分配结果。 

3. 若引入大量超参 (K in ATSS, alpha in OTA)做标签分配,则当数据集分布发生变化时,需要大量的调参时间。

误检上下文相关性分析

(FP context analysis)

在实际应用中,人脸检测器并不会十分care AP的指标,而对误检(false positive [FP])的数量十分敏感。

针对这个问题,目前的做法是收集大量带有FP的图片去fine-tune或者from scratch训练检测器,来帮助检测器了解更多范式的FP,但是我们发现有些频繁出现在训练集中的的FP在这种策略下无法有效解决。

这篇文章,我们发现了一个有趣的现象:对于同一个FP,当它的context发生变化时,对于同一个检测器来说它可能就不是FP了。

如下图(c),最左面的图片里日历是FP,剩余两张日历都不是FP。

526f259dc42421d6242b0ea32d29d966.png

金字塔层级监督信号分配

(pyramid layer level GT assignment)

scale-level 数据增强策略常常作通用物体检测以及人脸检测中解决scale variance主要手段。如图(b)所示,相对于COCO,人脸检测数据集Wider Face 中人脸的尺度分布更为严峻。

为此,我们分提出了一个新的问题,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即检测器的性能与每个pyramidlayer匹配ground-truth的个数之间的关系是什么?是否越多越好?

通过严格的对比实验我们发现:“对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好”。

这说明要挖掘每一个pyramidlayer的最好性能,需要控制在这个pyramidlayer上的ground-truth分配的比例。

cc7fb70f9de70329319af41ecffb0e82.png

04

方法

Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)

针对上述“动态标签分配策略(dynamic label assignment)”观察分析,本文提出了在里面一种自适应的在线增量锚挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并进一步adaptive 帮助outlier face匹配anchor。如下:

2ade0479f7abf668031555842e4d0f9a.png

Hierachical Context-Aware Module (HCAM)

基于上述“误检上下文相关性分析(FP context analysis)”观察分析,发现“对于同一个FP,当它的context发生变化时,对于同一个检测器来说他可能就不是FP了”,我们进一步提出了一个two-step的模块来显示的encode context 信息来帮助区分FP和TP,显著减少了FP的数量。

65a2065dadbf2ebf4a47382e56d12134.png

Selective Scale Enhancement Strategy (SSE)

基于上述的“金字塔层级监督信号分配(pyramid layer level GT assignment)”观察分析,发现“对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好”,我们提出通过控制pyramid layer 匹配的ground-truth的数量来最大化pyramid layer 的性能。

01aff883bb004205d9194bd4bc2dd0fc.png

05

实验

Ablation Study

fe183b10694b26f3ad18bddb5a7fd406.png

c06511d1bdd86932dec1cdcaa8354d96.png

6ee6a1d941d6e88dbf479a40987c1210.png

Comparison with sota

fd3b7810fe3579aed33a4e9b3e9bcca0.png

06

总结

该论文从实验科学的角度,根据实验观察发现了人脸检测三个重要的改进点。并依据此设计出了对应的优化方法,最终取得 SOTA 的效果。

通过本文可以一窥通过实验科学的方式进行顶会论文的投稿。另外给大家介绍下其他域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45039.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊并发——生产者消费者模式

(转自:http://www.infoq.com/cn/articles/producers-and-consumers-mode?utm_sourceinfoq&utm_campaignuser_page&utm_mediumlink) 在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的…

阿里内贸团队敏捷实践(二)自组织管理

实现团队的自组织管理,非常有助于团队形成合力,极大地提升团队整体的工作效率。本文结合原阿里ITU内贸团队的敏捷实践经历,阐释了何为自组织管理、为什么进行自组织管理、如何进行自组织管理等内容,同时给出了团队实施自组织管理的…

阿里内贸团队敏捷实践(三)结对编程

本文主要从提升项目质量、促进知识传递及减少项目风险等角度出发,讲述作者所在团队在结对编程实践中的一些经历,以及如何避免或减少其所带来的负面影响。 你了解结对编程吗?你尝试过结对编程实践吗?也许你还未曾尝试甚至还不曾了解…

聊聊生产者消费者模式

在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的整体处理数据的速度。 为什么要使用生产者和消费者模式 在线程世界里,生产者就是生产数据的线程,消费者就是消费数据的线程。在…

聊聊并发 生产者消费者模式

http://ifeve.com/producers-and-consumers-mode/ 本文首发于InfoQ 作者:方腾飞 校对:张龙 在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的整体处理数据的速度。 为什么要使…

阿里内贸团队敏捷实践-敏捷回顾

回顾review是敏捷开发中的一个必不可少的实践也是把整个敏捷开发过程连接成一个闭环的关键节点本文将阐述我们是如何做敏捷回顾的。 敏捷回顾最高指导原则 无论我们发现了什么考虑到当时的已知情况、个人的技术水平和能力、可用的资源以及手上的状况我们理解并坚信每个人对自己…

java 生产者消费者模式_聊聊并发(十)生产者消费者模式

本文首发于InfoQ 作者:方腾飞 校对:张龙 在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的整体处理数据的速度。 为什么要使用生产者和消费者模式 在线程世界里,生产…

基于Trtc的内贸站视频聊天服务【二】

基于Trtc的内贸站视频聊天服务【二】 上一节课和大家聊了一下web端视频聊天的技术演变和发展,需要满足web端视频聊天的基本条件。以及介绍了一下腾讯云提供的Trtc服务,大概说了下腾讯云的sdk。本节课就以实际开发内贸站视频聊天的项目(Swan&…

谷歌外贸sem与百度内贸sem的不同

1,国内的话,不用在乎是否使用在家用,起订量问题一般不用特别注意,如果家用零售的话,大家会很自觉地想到淘宝,拼多多。但是进出口的话,必须是商用,批发,大批量货物类型&am…

外贸软件进出口内贸综合型管理解决方案

外贸公司综合型业务模式,指的是公司涉及自营、代理进出口业务、内贸业务、转口业务等等多业务模式,涉及的产品种类多,像这样的综合型外贸公司就需要通过信息化管理实现业财一体化,完善资金流向,简化工作流程&#xff0…

使用Azure OpenAI服务创建聊天机器人

创建聊天机器人步骤: 1、开通 Azure OpenAI 服务 在 Azure 国际版注册账号。注册后创建OpenAI 服务。申请提交后需要等待审核,审核通过后就可以对接接口了。 2、创建 Azure OpenAI 服务 当你的申请通过后,就可以到 Azure 上创建 OpenAI 服…

C#探索之路(9):深入理解C#代码编译的过程以及原理

C#探索之路(9):深入理解C#代码编译的过程以及原理 文章目录 C#探索之路(9):深入理解C#代码编译的过程以及原理一、前言:概念解析1、编译器:2、JIT是什么?3、AOT是什么?4、如何理解这个“基于运行时”的概念…

办公必备!不再被格式问题困扰,轻松搞定文档转换!

大家平时在工作中会需要将文档转换为其他格式吗? 日常工作中,经常碰到需要文件格式转换的情况,对于掌握了一些转换技能的朋友说,文件格式转换自然不在话下 对于不熟练的朋友来说,想要轻松转换文件格式,就…

微信dat文件用什么软件打开,如何转成jpg常用格式

微信dat文件是在PC端微信软件产生的图片文件,这个文件实际上是一个图片,微信把聊天过程中产生的图片进行了加密,更改了后缀存储为dat文件。 有时候删除了聊天记录或者被系统清理软件清理了,但还想查看曾经的微信聊天图片。这个时候…

PDF转Word怎么调整格式?这个方法轻松解决

在日常工作中,我们可能会遇到需要将PDF文件转换为Word文档的情况。虽然现在的PDF转Word工具越来越智能化,但仍然有一些格式调整需要我们手动进行。最近就有个小伙伴说接到了一份由客户提供的PDF文档,需要将其中的内容转换为Word文档&#xff…

新闻发布系统(java实现)+论文

java新闻发布系统以及论文,有需要联系QQ:1240952102 java源码以及论文 数据库脚本 以及开发工具齐全 只需安装即可使用 有需要联系QQ:1240952102

2020秋 英文科技论文写作与学术报告-期末

2020秋 英文科技论文写作与学术报告-期末 搜索答案不易,切勿白嫖

开题报告:基于java新冠疫苗在线预约系统 毕业设计论文开题报告模板

开发操作系统:windows10 4G内存 500G 开发环境:JDK1.8 Tomcat8 开发语言:Java 开发框架:springboot 模板引擎:Thymeleaf 开发工具:Idea 数据库:mysql8 数据库管理工具:nav…

大学计划《数字化转型赋能教育创新发展高峰论坛》成功举办

2023年4月8日,由航天科技控股集团股份有限公司(简称“航天科技”)主办,CFF上海与上海电子信息职业技术学院承办、智慧树网支持的《数字化转型赋能教育创新发展高峰论坛》线上会议顺利召开。此次会议邀请到了众多教育界专家、教学名…

可复现、开放科研、跨学科合作:数据驱动下的科研趋势及应用方案

信息技术的快速发展,催化了数据科学场景下科研组织提高科学研究的可复现性、实现开放科研、开展跨学科领域的交叉研究等协同诉求。本文剖析了此三类诉求的实现难点,并提供了系统化的解决方案。 欢迎进入ModelWhale 官网注册试用,个人专业版与…