达摩院榜首模型人脸检测MogFace CVPR论文深入解读

 团队模型、论文、博文、直播合集,点击此处浏览

一、开源

1.)论文链接:MogFace: Towards a Deeper Appreciation on Face Detection

2.)模型&代码:https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

3.)简易应用:https://modelscope.cn/studios/damo/face_album/summary

二、背景

        人脸检测算法是在一幅图片或者视频序列中检测出来人脸的位置,给出人脸的具体坐标,一般是矩形坐标。它是人脸关键点、属性、编辑、风格化、识别等模块的基础。本文通过实验观察发现,对应设计出如下三个模块构建出一个高性能的人脸检测器MogFace:1.)动态标签分配策略(dynamic label assignment),2.)误检上下文相关性分析(FP context analysis),3.)金字塔层级监督信号分配(pyramid layer level GT assignment)。该方法的模型在WIDER FACE榜单上取得了截止目前将近两年的六项第一。

三、观察

1.1 动态标签分配策略(dynamic label assignment)

         为每个anchor点定义cls和reg目标是训练检测器的必要过程,在人脸检测中这个过程称之为标签分配(Label Assignment)。最近,标签分配吸引了诸多研究人员的注意,在人脸检测及通用物体检测领域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。 如示例图(a),标签分配过程依赖4个元素。分别是:1.)offline information: a.)IoU (anchor与ground-truth框的IoU) , b.)CPD (anchor与ground-truth中心点的距离) ,2.)online information: a.)PCS (cls分支对anchor的前景分类概率值) ,b.)PLC (reg分支对anchor的预测坐标值)。

        但是,目前的标签分配方法存在三个问题。1.)若只用offline information做静态标签分配,那么会有很多具备更强回归能力的negative anchor无法被有效利用起来,会导致标签分配策略欠饱和。2.)若过度信任online information动态调整正负anchor时(如OTA和Hambox),由于online information属于预测信息可信度不高,会导致标签分配策略错误多, 极端情况下会陷入trivial 的分配结果。 3.) 若引入大量超参 (K in ATSS, alpha in OTA)做标签分配,则当数据集分布发生变化时,需要大量的调参时间。

1.2 误检上下文相关性分析(FP context analysis)

        在实际应用中,人脸检测器并不会十分care AP的指标,而对误检(false positive [FP])的数量十分敏感。针对这个问题,目前的做法是收集大量带有FP的图片去fine-tune或者from scratch训练检测器,来帮助检测器了解更多范式的FP,但是我们发现有些频繁出现在训练集中的的FP在这种策略下无法有效解决。这篇文章,我们发现了一个有趣的现象:对于同一个FP,当它的context发生变化时,对于同一个检测器来说它可能就不是FP了。如下图(c),最左面的图片里日历是FP,剩余两张日历都不是FP。

1.3 金字塔层级监督信号分配(pyramid layer level GT assignment)

        scale-level 数据增强策略常常作通用物体检测以及人脸检测中解决scale variance主要手段。如图(b)所示,相对于COCO,人脸检测数据集Wider Face 中人脸的尺度分布更为严峻。为此,我们分提出了一个新的问题,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即检测器的性能与每个pyramidlayer匹配ground-truth的个数之间的关系是什么?是否越多越好?通过严格的对比实验我们发现:对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好。这说明要挖掘每一个pyramidlayer的最好性能,需要控制在这个pyramidlayer上的ground-truth分配的比例。

四、方法

2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)

        针对上述动态标签分配策略(dynamic label assignment)观察分析,本文提出了在里面一种自适应的在线增量锚挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并进一步adaptive 帮助outlier face匹配anchor。如下:

2.2 Hierachical Context-Aware Module (HCAM)

        基于上述误检上下文相关性分析(FP context analysis)观察分析,发现对于同一个FP,当它的context发生变化时,对于同一个检测器来说他可能就不是FP了,我们进一步提出了一个two-step的模块来显示的encode context 信息来帮助区分FP和TP,显著减少了FP的数量。

2.3 Selective Scale Enhancement Strategy (SSE)

        基于上述的金字塔层级监督信号分配(pyramid layer level GT assignment)观察分析,发现对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好,我们提出通过控制pyramid layer 匹配的ground-truth的数量来最大化pyramid layer 的性能。

五、实验

3.1 Ablation Study

3.2 Comparison with sota

六、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24090.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GTC 2023 | 「皮衣刀客」黄仁勋畅谈 AI Top 5,科学计算、生成式 AI、Omniverse 榜上有名

内容一览:北京时间 3 月 21 日 23:00,英伟达创始人兼 CEO 黄仁勋在 GTC 2023 上发表主题演讲,介绍了生成式 AI、元宇宙、大语言模型、云计算等领域最新进展。 关键词:英伟达 黄仁勋 GTC 2023 「Don’t Miss This Defining Momen…

《WebRTC系列》实战 Web 端支持 h265 硬解

1、背景 Web 端实时预览 H.265 需求一直存在,但由于之前 Chrome 本身不支持 H.265 硬解,软解性能消耗大,仅能支持一路播放,该需求被搁置。 去年 9 月份,Chrome 发布 M106 版本,默认开启 H.265 硬解&#xf…

极客公园对话 Zilliz 星爵:大模型时代,需要新的「存储基建」

大模型在以「日更」进展的同时,不知不觉也带来一股焦虑情绪:估值 130 亿美元的 AI 写作工具 Grammarly 在 ChatGPT 发布后网站用户直线下降;AI 聊天机器人独角兽公司 Character.AI 的自建大模型在 ChatGPT 进步之下,被质疑能否形成…

云平台的ChatGLM部署

最近ChatGPT很火,国内清华也发布了ChatGLM,于是想在云平台上实现一下小型的ChatGLM。目前准备在趋动云这个平台上试试ChatGLM-6B-int8。 目前ChatGLM-6B-int8显存最少需要10G 可以参考GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialo…

高通Ziad Asghar:AI处理的重心从云端向边缘侧转移,智能手机是最佳平台 | MEET 2023...

萧箫 整理自 MEET 2023量子位 | 公众号 QbitAI 从Stable Diffusion到ChatGPT,这半年AI算法应用可谓突飞猛进。 但对于硬件领域而言,AI计算的下一个突破口或未来趋势究竟是什么? 尤其是AI应用最大的领域之一——移动端,大量AI算法在…

Stable Diffusion免费(三个月)通过阿里云轻松部署服务

温馨提示:划重点,活动入口在这里喔,不要迷路了。 其实我就在AIGC_有没有一种可能,其实你早就在AIGC了?阿里云邀请你,体验一把AIGC级的毕加索、达芬奇、梵高等大师作画的快感。阿里云将提供免费云产品资源&…

如何通过限制 IP 相关信息 | 控制用户访问站点频率

文章目录 通过 IP 限制反爬实验介绍知识点课程环境 IP 限制实战用 Nginx 限制特定 IP关于 allow 和 deny 的使用说明Nginx 限制 IP 访问频率Python Flask 模拟 IP 黑名单 实验总结 通过 IP 限制反爬 实验介绍 在常规的反爬手段中,IP 限制是应用广泛且比较有效的&a…

win11 报错 你的IT管理员已经限制对此应用一些区域的访问 解决方法

你的IT管理员已经限制对此应用一些区域的访问,你尝试访问的项目不可用。有关详细,请与你的IT支持人员联系。 1.按下wins,在框中输入cmd,右键管理员身份运行 2.在命令提示符中输入 reg add “HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows Def…

wordpress开放注册和邮件问题解决

1开放注册 WordPress后台,设置-常规,勾选任何人都可以注册前面的复选框,新用户角色改为作者,保存即可开启。 2新用户注册收不到邮件问题解决 wordpress配置SMTP服务发送邮件(以qq邮箱为例) 第一步、配置邮箱(这里介绍qq邮箱) 我试过多个…

SLAM基础知识汇总【长期更新】

SLAM基础知识汇总 特征点相关 特征点由关键点和描述子构成: 关键点:特征点在图像里的位置描述子:通常是一个向量,描述了该关键点周围的信息,朝向大小等 [ORB-SLAM2] ORB-SLAM中的ORB特征(提取&#xff…

国科大数字图像处理(复习与整理)

图像处理复习笔记: 1、证明一个系统是线性系统2、证明函数卷积的傅里叶变换等于函数傅氏变换后的乘积3、采样定理与混叠4、直方图均衡化第一节课知识点第二节课知识点第三节课知识点第四节课知识点第五节课知识点第六节课知识点第七节课知识点第八节课知识点第九节课…

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

0 写在前面 分享最近在BEV感知方面的工作,欢迎自动驾驶同行交流学习,助力自动驾驶早日落地。 1.概述 对于自动驾驶而言,BEV(鸟瞰图)下的目标检测是一项十分重要的任务。尽管这项任务已经吸引了大量的研究投入&#…

CCF认证202305-1重复局面

题目背景 国际象棋在对局时,同一局面连续或间断出现3次或3次以上,可由任意一方提出和棋。 问题描述 国际象棋每一个局面可以用大小为 的字符数组来表示,其中每一位对应棋盘上的一个格子。六种棋子王、后、车、象、马、兵分别用字母 k、q、…

地鼠君黑盒测试--小白如何梳理需求,告别听不懂

没有需求文档的痛苦 刚开始作黑盒(功能)测试时,小白难免会遇到这种情况,就是需求梳理不清晰,没有需求文档或者需求文档太简单。这种一开始没人带时,不容易发觉后续测试多痛苦。 笔者一开始时,就…

记一次购买海外服务器的经历和python包管理小记

概述 最近在研究ChatGPT,需要有个服务器一直挂着,刚好看到raksmart在搞活动; 可以关注下,他们的活动页面 https://billing.raksmart.com/whmcs/index.php?rp%2Fannouncements&languagechinese-cn 刚好四月,有便…

No signature of method: build_*.android() is applicable for argument types

意思很直观:就是build的时候,android()的参数错误。 更新android studio 后出现这种问题,主要是新版本的生成的app和module模版有所变化引起的。 Android Studio Electric Eel | 2022.1.1 Patch 1 Build #AI-221.6008.13.2211.9514443, built…

01 Faster R-CNN系列

目录 一、 R-CNN 1. R-CNN流程(4个步骤 ) 2. RP的确定 3. 预训练模型微调(backbone) 4. SVM的分类 5. bbox regression的训练 6. NMS 二、 Fast R-CNN 1. Fast R-CNN算法流程 2. 候选区域生成 3. 预训练模型微调&#…

ChatGPT API 遇见 Tistory:自动化英语学习博客

这是通过集成 ChatGPT API 创建自动化英语学习内容系列中的第三部分。 转发: ChatGPT API Meets Tistory: The Automated English Learning Blogs 项目介绍 介绍 这是通过集成 ChatGPT API 创建自动化英语学习内容系列中的第三部分。 我正在尝试整合各种平台。 第一个是 Se…

cahtgpt算法压力测试(丁真版,更新gpt4(暴风哭泣了已经))

更新 补充了gpt-4版本的答案,只能说牛逼,我收回之前的替代不了高级科研工作者的结论,话不多说上答案: 可以看到这里已经吊打got3.5了,它能把这个问题解释的很清楚了 那么关于GPF算法和varimax的关系呢 可以看到gpt3…

连音乐都可以创作!Google AI部门推出交互式体验

机器学习也能应用在音乐上吗?Google AI部门的Magenta研究项目PAIR计划团队打造出第一个由AI驱动的Doodle服务,Doodle为一项交互式体验,让用户自行创造一段旋律,按下和声演奏(Harmonized)的按钮后&#xff0…