达摩院开源低成本大规模分类框架FFC CVPR论文深入解读

  团队模型、论文、博文、直播合集,点击此处浏览

一、论文&代码

论文链接An Efficient Training Approach for Very Large Scale Face Recognition

应用&代码:

 https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

二、背景

        图像分类是当前AI最为成功的实际应用技术之一,它已经融入了人们的日常生活。它被广泛的应用到了计算机视觉的大部分任务中,比如图像分类、图像搜索、OCR、内容审核、识别认证等领域。目前已形成一个普遍共识:“当数据集越大ID越多时,只要训练得当,相应分类任务的效果就会越好”。但是面对千万ID甚至上亿ID,当下流行的DL框架下,很难低成本的直接进行如此超大规模的分类训练。

        解决该问题最直观的方式是通过集群的方式消耗更多的显卡资源,但即便如此,海量ID下的分类问题,依然会有如下几个问题:

1.)成本问题:分布式训练框架 + 海量数据情况下,内存开销、多机通信、数据存储与加载都会消耗更多的资源。

2.)长尾问题:实际场景中,当数据集达到上亿ID时,往往其绝大部分ID内的图片样本数量会很少,数据长尾分布非常明显,直接训练难以获得较好效果。

    本文余下章节将重点介绍超大规模分类框架现有解决方案,以及低成本分类框架FFC的相应原理及trick介绍。

三、方法

        在介绍方法之前,首先回顾下超大规模分类当前存在的主要挑战点:

挑战点1:成本居高不下

ID数目越大分类器显存需求越大,如下示意图所示:

 显存越大所需机器卡数越多,成本也就越高,相应多机协同的硬件基础设施成本也越高。与此同时,当分类 ID数目达到极超大规模的时候,主要计算量将浪费在最后一层分类器上,骨架网络消耗的时间可忽略不计。

挑战点2:长尾学习困难

        实际场景下,上亿ID中的绝大部分ID内的图片样本数量会很少,长尾数据分布非常明显,直接训练难以收敛。如果按照同等权重训练,则长尾样本会被淹没学习不充分。此时,一般采用imbalanced sample,在这个研究课题上,有非常多的方法可以借鉴,采取怎样的方式融入到简易超大规模分类框架上较为合适呢?

        带着上述两个挑战点,首先来看下现有可行的方案有哪些,是否能很好的解决上述两个挑战。

可行方法1:度量学习

可行方法2:PFC框架

可行方法3:VFC框架

本论文方法:FFC框架

大规模分类采用FC训练时损失函数如下

 在每一次反传过程中,所有的类中心都会更新

但FC太大了,直观的思路是合理地选择一定比例的类中心,即如下Vj为1部分:

由上述动机,引出了如下初步的方案:

         首先,为了解决长尾带来的影响,我们引入两个loaders,分别是基于id采样的id_loader和基于样本采样的instance_loader,有了这两个loader。在每个epoch当中,样本多的类和样本少的(few-shot)类能够有机会被训练到。

        其次,在训练开始之前,先将一部分样本送入id group,这里假设放入10% id的样本进入group。这时候gallery用的是随机参数。

        然后,训练开始时,batch样本挨个进入probe net。然后对于每个batch里面的样本就有两种情况:1.)group中存在此样本同样id的特征,2.)group中不存在同类样本的特征。对于这两种情况,我们分别称之为existing id和fresh id。对于existing的样本,拿特征和group里面的特征做内积,计算与标签的交叉熵损失函数,后回传。对于fresh的样本,跟group里面的样本来个最小化余弦相似度。

        最后,对group里面特征更新,采取新类中心替换,现有类中心加权的原则。对于gallery net,采用moving average策略把probe里面的参数渐渐更新进去。

本论文方法:trick介绍

1.)引入的ID Group,其size是个可调参数,一般默认为3万。

2.)为达到稳定训练,参考moco类方法,引入moving average,相应收敛情况对别:

四、实验结果

1. 双Loader消融实验

2. SOTA方法效果对比

3. 显存与样本吞吐对比

 五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59207.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

达摩院开源工业级说话人识别模型CAM++

近日,达摩院正式向公众开源工业级说话人识别通用模型CAM,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工…

270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...

转自:机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注。今日,阿里达摩院发布了 270 亿参数、1TB 训练数据的…

国外大牛 Adam Fallon 十年软件开发的一些经验分享

经过了长达十年的编程生涯,我对于软件工程的理解和认识已经日趋成熟。在此,我想与大家分享一些对于编程的独到见解和心得体会,希望这些经验可以为你的编程之路提供一些参考。 首先,我发现有一个庞大而声音响亮的行业,致…

270亿参数的“中文版GPT-3”来了!阿里达摩院发布超大规模语言模型PLUG

自18年谷歌BERT横空出世以来,预训练语言模型一跃成为自然语言处理领域的研究热点,海量数据与大规模模型的预训练少量下游任务数据微调(Pre-training Fine-tune)也成为NLP任务的新范式。从在开源数据集上进行评测到业务实践中的价…

阿里达摩院TableQA技术让表格说话

作者:水德 在过去两年时间里,阿里达摩院对话智能团队(Conversational AI)围绕 TableQA 做了一系列探索,先后在四大国际权威榜单上取得第一名,并且开源了首个中文预训练表格模型。同时,把 Table…

阿里达摩院开源DAMO-YOLO:超越了一众YOLO系列方法

向AI转型的程序员都关注了这个号👇👇👇 1.简介 DAMO-YOLO是一个兼顾速度与精度的目标检测框架,其效果超越了目前的一众YOLO系列方法,在实现SOTA的同时,保持了很高的推理速度。DAMO-YOLO是在YOLO框架基础上引…

坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

作者 | 马超 出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句、妙语令人啧啧称奇。 但是以笔者从业多年的经验看&#…

如何在html中插入背景音乐

注:本方法是通过外链的方式插入背景音乐 1.搜索网易云音乐 2.选择一首音乐,也可以登录后查看自己喜欢的音乐 3.点击生成外链播放器 4.有的歌曲会有权限保护,无法生成外链,这是缺点,我们选择另一首歌 5.可以看到如下代码,不建议使用flash插件,毕竟谷歌浏览器禁用了,影响体验,默…

虚幻4为场景添加背景音乐的三种方法

根据官方文档介绍,虚幻在场景当中添加音乐有三种方法,我这里也不知道它到底支持哪些音频,反正导入mp3文件不好用,改成wav文件就没问题了,所以大家在导入文件的时候尽量使用wav文件,就不要使用其他的音频文件…

关于如何在html网页中插入可以自动播放的背景音乐

昨天想做一个带有自动播放背景音乐的html网页,频繁碰壁,最后终于找到问题所在: 一般大家会考虑到audio标签,然后在标签里使用autoplay。理论上是可以的,但是一定要注意浏览器的设置,浏览器一般会自动阻断背…

H5背景音乐解决方案

前言背景音乐播放 1 自动播放 1 微信问题2 Safari问题3 解决方案代码 2 点击播放 离开页面关闭音乐缓存状态 1 客户端存储数据方法2 示例 完整解决方案代码 1. 前言 很多H5的项目会用到背景音乐,虽然是很小的一个模块,但是有不少的坑。本文总结了背景音…

【向生活低头】如何在Gold Wave软件中为声音添加背景音乐

很奇怪,百度了很久,找到的方法都不可以用(都用的混响),但大家又都很统一,我感觉很奇怪。 最后,我找到了这个视频,(用的混音)这次终于可以了。 记录&#xff0…

告别枯燥,ppt背景音乐怎么设置?

大家用过ppt吗?在办公软件中,ppt最常用到的就是在于广告宣传这方面,因为ppt里面的各种元素都能让你的宣传更加灵动。ppt背景音乐怎么设置?在制作ppt的时候,当表面因素勾勒得差不多时,如果设置一个背景音乐可…

chatgpt赋能python:Python如何减慢输出速度

Python如何减慢输出速度 Python是一种高级编程语言,被广泛应用于数据分析、人工智能和Web开发中。在这里,我们将探讨一种方法,即如何减慢Python的输出速度,从而进行更有效的调试和优化。 什么是Python的输出速度? 在…

【观察】数据分析还能这样玩?《事业告急——月老KPI下降分析》的“制胜秘籍”...

谈起去年参加2022帆软数据分析大赛时,新希望集团BI项目经理林家喜仍然“记忆犹新”,凭借参赛作品《事业告急——月老KPI下降分析》,他带领的团队在193份参赛作品中“脱颖而出”,斩获了大赛的“最佳展现创意奖”。 事实上&#xff…

AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot

为什么Chatbot需要大语言模型向量数据库? 这个春天,最让人震感的科技产品莫过于ChatGPT的横空出世,通过大语言模型(LLM)让人们看到了生成式AI能实现到和人类语言高度相仿的语言表达能力,AI不再遥不可及而已…

ModaHub魔搭社区:如何基于向量数据库+LLM(大语言模型),打造更懂你的企业专属Chatbot?

目录 1、为什么Chatbot需要大语言模型+向量数据库? 2、什么是向量数据库? 3、LLM大语言模型+ADB-PG:打造企业专属Chatbot 4、ADB-PG:内置向量检索+全文检索的一站式企业知识数据库 5、总结 1、为什么Chatbot需要大语言模型+向量数据库? 这个春天,最让人震感的科技产品…

Photon AI Translator 和做产品的一些思考

近 4 个月内我一直在做 Apple 平台的产品,虽然从使用量来说「简体中文」用户是占多数,但我一直有做多语言的支持:英语、简体中文和繁体中文。习惯上 Google 翻译的我,基本上在使用 Xcode 过程中也会一直在浏览器开着 Google Trans…

大一新生调查报告——新生遇到的问题与需求

小组成员: 信通6班何若溪(人际关系主题),章玉(学习压力主题),袁博秋(思乡主题) 信通7班梁凌(信息整合与报告制作) 信通8班夏姝婷(时间…

基于PHP的大学生问卷调查系统

一 项目介绍 基于PHP的大学生问卷调查系统 数据库mysql ,可搭建在phpstudy下,实现快速部署! 二 主要功能 用户 1 登录 2 填写问卷 管理员 1 登录 2 问卷/问题(增删改查) 3 问卷统计结果(按选择结果百分比显示) 4 问卷回收情况(参与用户和未…