Efficient Teacher

这里是针对YOLOv5的半监督目标检测实现

Efficient Teacher包含一篇论文(https://arxiv.org/pdf/2302.07577.pdf)和一套开源代码库(https://github.com/AlibabaResearch/efficientteacher)。其中,论文讲解了如何针对YOLOv5进行半监督训练,开源代码库可以针对YOLOv5及后续YOLO系列进行有监督和半监督的目标检测训练,库中半监督的部分用来支持仅有少量标注数据的任务完成具有良好泛化性能目标检测器的训练。本篇文章不会涉及到太多技术细节,更多是给大家分享我们为何要开展半监督目标检测这项工作。

有监督目标检测业态

我们的业务是将训练出的神经网络放置于AI Box这样的边缘计算设备以及智能摄像头这样的端侧计算设备上,为客户提供普惠的、软硬一体的、端云一体的AI解决方案。简单理解就是,客户会从阿里云买到带有智能算法的硬件,放置在自己的场景里,接入摄像头,开启AI检测任务,客户就会在自己的设备上看到检测结果。

在产品建设初期,困扰我们的最大问题是,如何在受限算力设备上让算法对任意场景都有好的效果。正如之前所说,算法是跟随硬件一起售卖的,在客户打开摄像头之前,算法工程师不知道模型是否有足够的准确率。如果算法一直是这样一种开盲盒的状态,那么不管硬件多么便宜、架构多么出色,产品都不可能取得商业成功,因为它没有基本的可复制性。

怎样让神经网络在任意场景都有较高的准确率?沿着主流技术路径推演得到的结论是——收集大量来自各种场景的数据,并一一进行准确标注,在有监督学习的范式下,神经网络一定会学到有一个稳健的数据分布(本质是让神经网络背下所有可能发生的情况,做到心中有数)。

这样的解决方案完全符合奥卡姆剃刀原则——直面问题、稳定、高效。于是我们开始大量购买图片,并对其进行标注。经过几轮迭代后,我们发现,在具有广泛商业应用场景的检测任务上(譬如车辆),这种方案效率出奇的高,除了少数极其复杂的场景,我们的盒子做到了既开即用。大家发现,只需要氪金就可以无限提升算法的表现,大量的标注帮助我们的边缘计算产品度过了第一阶段,代价是算法工程师被倒逼成了标注头子和脚本大师,但几乎所有人都觉得这是一笔划算的买卖。

从有监督走向半监督

靠着标注训练拿到了一些订单之后,我们发现,沿着这个方向发展带来的边际效应急速下降。我们开始接触大量有着客制化需求的长尾客户:A客户希望检测“纸箱子”与“塑料袋”,B客户希望检测“火焰”与“厨师帽”,C客户希望检测“三轮车”和“电动车”,那么在不增加已有图片数据的前提下,标注任务已经翻成了3倍;同时,在签署数据协议后,客户还会向我们传输大量的现场图片,在一轮又一轮针对客制化需求的迭代后我们发现,人工标注的速度远远赶不上新场景和新需求出现的速度,检查标注内容或者自行标注变成了算法工程师的主要工作内容,这个过程当然很有意义,但每周的工作总结写完就两行:“1.本周检查了多少万张标注数据。2.加入新标注的数据重新训练神经网络”。

怎样在尽量少标注的情况下快速让模型在任意场景都有较高的准确率?站在2022年4月的节点,我们惊喜地发现,在半监督目标检测的理论上已经有了一定的突破。从CVPR2021对FasterRCNN到CVPR2022针对FCOS的半监督目标检测论文,都表明该技术正在完成技术萌芽期。

半监督训练技术是一种借助少量标注数据和大量无标注数据来联合训练神经网络的方案,主流的半监督目标检测方案统一采用了teacher-student解决范式,运用teacher网络对无标注数据生成的伪标签来指导student学到全量数据的分布,同时student又会以集成学习的方式来更新teacher的参数,形成互学习的飞轮效应。

我们组立刻预研了一个版本的半监督算法,应用在标准的YOLOv5检测器上,结果发现,提升并不大。表面原因是,当时虽然有大量的半监督学术文章,但是没有文章聊过怎么把方法接到像YOLOv5这样充满了各种工程化trick实现的检测器上。背后的真实原因是,其一,我们对半监督这个任务的理解不够深刻;其二,业界缺乏一个工程化良好的目标检测库来支撑完成半监督的YOLOv5。

基于这次尝试的反馈,我们决定从2022年5月份开始重构一个目标检测库算法实现,以YOLOv5开源库(https://github.com/ultralytics/yolov5)为基线,重构一个既能方便运用配置文件来增删改查各种参数、又能同时训练one stage anchor based和anchor free检测器(YOLOv5/YOLOX)、还能干净地同时完成有监督训练和半监督训练的检测库。

同时,我们还仔细研读了CVPR2022的一系列半监督目标检测工作,其中两篇关键论文加速了我们的研究进度,一篇是来自阿里达摩院的《Dense Learning based Semi-Supervised Object Detection》,一篇是来自海康研究院的《Label Matching Semi-Supervised Object Detection》。这两篇论文不仅有扎实的理论阐述,还提供了优雅、可读性高的代码实现。根据这两篇论文的思路和超参说明,我们第一次在实验中让YOLOv5的COCO半监督实验指标开始提升。

在经过大量的调参、测试、实验现象分析后,我们总结形成了一篇针对YOLOv5的半监督训练论文,按照论文的方案,可以稳定地将检测器在COCO少量标注任务上的mAP提升12~15点的绝对指标。 

在重构的检测库能够稳定实现COCO数据集的半监督任务后,我们对Efficient Teacher使用场景进行了总结:

(1)训练时的数据和模型实际部署场景差异较大,现场算法常出现漏检和误检;

(2)模型部署现场的图片数据回传成本大,仅能获得很少量的现场数据;

(3)大量回传的现场图片标注成本高,大量检测任务并行开发且客制化程度高,无法相互复用;

在这些情况下,Efficient Teacher都可以使用半监督的训练方案基于少量的标注和大量的无标注数据训练出一个拥有良好泛化性能的检测器。

下面是我们在一些实际场景上训练获得的效果图,左边是全监督训练的YOLOv5l,右边是半监督训练的YOLOv5l,这些渲染图片都是在神经网络训练时从没有见过和标注过的图片:

 

可以看到,使用了半监督训练后,神经网络在未见过的数据上的泛化性能有了大幅提升,抑制了漏检和误检,而这些提升从头到尾没有依赖过添加手工标注。

上面这些实验的具体步骤如下:(1)利用有监督训练在数据集上训练出一个模型A; (2)基于模型A在标注数据和大量无标注数据上半监督训练出模型B,最后比较A和B模型的表现差异。这个过程中,我们也少量标注了一些新的验证集来验证半监督训练的效果,原因是半监督训练往往不太影响模型在原有验证集上的表现,而是加强模型在分布外验证集上的效果。

在验证过程中,我们也发现了当前半监督方案存在的不足之处——生成伪标签时是需要精调得分阈值和NMS阈值的。为了解决这个问题,我们添加了半监督训练时的log进行辅助提示,在训练时,进度条会将当前每幅图像生成的伪标签和训练集中每幅图片的平均标签个数都打印出来。如果在训练过程中发现平均每幅图的伪标签已经远远大于或小于训练集中每幅图的平均标签数,就意味着,应该修改伪标签生成的得分阈值和NMS阈值超参了。

one more thing

在完成了上述验证工作后,我们发现YOLO社区又有了新工作——YOLOv6/YOLOv7/YOLOv8,由于我们的重构检测库已经去掉了原始YOLOv5实现的限制,所以我们很轻松地将社区的最新工作也移植进了检测库,从而可以在一个库里用干净的参数和配置文件来检验更换backbone/neck/label assigner模块。这样,就可以量化出对同一任务使用不同检测器的收益,包括mAP/precision/recall/GFLOPs/Parameter等各种指标,这些指标又与标准YOLOv5实现是完全对应的,所以也能够帮助有需求的朋友们从开源YOLOv5仓库迁移到YOLOX/v6/v7/v8这些检测器下。

 

开源地址在:https://github.com/AlibabaResearch/efficientteacher

最近ChatGPT的出圈重新带起了资本对AI领域的“短期乐观”,仿佛通用人工智能下一秒就要降临了。而一段技术冷静期后,大家又会变得“长期悲观”,表示这个领域遭遇了严重的技术瓶颈。但我们坚持“长期乐观,短期悲观”,我的“长期乐观”是:

AI算法的应用落地,未来不会是无限依赖于收集大量数据并标注的重资产路线,而是一种端云结合、自主感知的演进路线,未来,云端的超大神经网络将会成为所有边缘AI的知识来源;

AI算法未来不再是针对标注数据的GPU启动脚本,而是通过具体项目驱动的、永远在自我更新的参数

“短期悲观”是:

现阶段的半监督方案是一种打破有监督范式的折中方案,不是终极解决方案,虽然它展示了一定的潜力,但还需要结合譬如human in the loop式的学习方案,完成向终极方案的过渡。

   whaosoft aiot http://143ai.com 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22096.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个巨型的ESP8266模块,围观围观

作者:晓宇,排版:晓宇 微信公众号:芯片之家(ID:chiphome-dy) 01 巨型ESP8266 ESP8266几乎无人不知,无人不晓了吧,相当一部分朋友接触物联网都是从ESP8266开始的&#xff…

入局AI时代,先从了解AI工具入手(200 个免费的 AI 工具分享)

这些工具是从业人员提升创造力和生产力的新领域!从生成独特的图像到将文本转换为语音,这些工具可以快速帮助你实现曾经难以想象的结果。 它们代表了人与机器之间的桥梁,这种合作可以开启新的可能性领域。拥抱 AI工具,可以极大的升…

资源盘点丨9个经典视觉-语言多模态预训练数据集

在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜索量攀升的热门词汇。这些体现了大众对人工智能的广泛关注。 事实上,人工智能的进步离不开深度学习方法在各个具体任务上的进展。其中,尤其是预训练任务的方法&#x…

SolidEdge C#.NET 二次开发系列教程(一) 安装部署插件

SE二次开发国内的教程简直太少了,为了学习这块,废了不少功夫,走了不少弯路。 特此开贴写教程以示后人。 se插件开发完成后就是如何部署,安装和部署和其他的.net插件类似。 1.走到这步你基本离成功很近了。 准备好你的dll插件的 Gu…

纵使AI再强悍,低代码风韵犹存

互联网沉默已久,ChatGPT的出现激起千层浪,沉寂已久的互联网迎来新一轮的机遇。毫不夸张地说,任何一家以技术见长的企业,人工智能绝对占有一席之地。 目录 人工智能很强悍 低代码风韵犹存 快速开发平台,大有看头 AI…

Chatgpt商业版开源部署教程

基于 ChatGpt-Web 项目二开的可商业化的 ChatGpt Web 应用(含后端) github上的大佬基于 ChatGpt-Web 项目二开的可商业化的 ChatGpt Web 应用(含后端) 修复部分了bug 卡密、支付、对话、模型等 历史对话同步功能 演示图片 主要…

ChatGPT基础知识系列之Transformer模型详解

ChatGPT之Transformer模型详解 Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。 1.Transformer 整体结构 首先介绍 Transformer 的整体结构,下图是 Tr…

聚观早报|王慧文要做「中国版 OpenAI」;Temu斥资近亿元赞助超级碗

点击蓝字 / 关注我们今日要闻:王慧文要做「中国版 OpenAI」;Temu斥资近亿元赞助超级碗;新东方在线股价收跌2.8%;ChatGPT带动的AIGC创业热潮要来了;传谷歌拆分其AR部门 王慧文要做「中国版 OpenAI」 2 月 13 日&#x…

上帝掷骰子吗?

“上帝掷骰子吗?” 这句名言出自物理学家爱因斯坦之口。都说现代人经常陷于迷茫,其实我们并不孤单,因为作为史上最伟大的物理学家之一、相对论的创始人,爱因斯坦在面对量子力学的随机性和不确定性,同样感到迷茫。 一本…

2023年十大流媒体发展趋势展望

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 编者按:经历了三年疫情,2023年流媒体将如何发展?虽然本文主要针对海外市场,但依然值得国内借鉴,比如AIGC、远程制播…

3名离职员工窃取公司游戏源码,半年狂赚 1.5 亿,网友:“自立门户也不带这样玩的!”...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 对于游戏公司而言,安全、抄袭问题总是「防不胜防」。 不仅要抵御黑客攻击、排查自身的安全漏洞,还要警惕员工拿着代码跑了! 近日,据上海市…

百度将?百度已!

仿佛一夜之间,创业公司OpenAI旗下的ChatGPT就火遍全球。 这是一场十分罕见的科技盛宴。下到普通用户,上到各科技大厂都在讨论ChatGPT的前景,国外的微软、谷歌,国内的百度、腾讯、阿里等等都在布局相关业务。比尔盖茨更是称ChatGPT…

Stable Diffusion动画版上线!十五种风格预设,支持文本图像视频多种输入方式

西风 发自 凹非寺量子位 | 公众号 QbitAI Stable Diffusion也能生成视频了! 你没听错,Stability AI推出了一款新的文本生成动画工具包Stable Animation SDK,可支持文本、文本初始图像、文本视频多种输入方式。 使用者可以调用包括Stable Diff…

Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【GAN和扩散模型】微信技术交流群 西风 发自 凹非寺转载自:量子位(QbitAI) Stable Diffusion也能生成视频了! 你没听错&#x…

关于stable diffusion的embedding训练的一篇随笔

前言 嗯,因为最近ai绘画很火啊,而且可以本地部署,很多人开始投喂ai然后画一些喜欢的东西,这是刚接触4天的笔记,那么我整理下目录,来展示一下这篇笔记都有什么吧。 1,绘画的关键词和反向关键词 2&#xf…

图像处理:Tiler制作你的专属卡通头像和LOGO(圣诞特别篇)

目录 0 前言1 安装与贴图2 算法原理2.1 计算像素频率2.2 计算像素相对距离2.3 计算合适贴图 3 配置功能4 使用:以圣诞老人为例推荐内容 0 前言 Tiler是一种使用各种其他较小图像平铺创建新图像的工具,它与其他马赛克工具不同,因为它可以适应多…

ChatGPT 3.5 的回答只能基于 2021年中期

ChatGPT 无法通过 internet 来访问 2021 年中期之后的数据。 比如无法列举 2021年 IT 界发生的新闻。 2021年的新闻则可以列举出来 以下是2021年IT界十大轰动性的新闻: 苹果公司推出 M1 芯片:苹果公司在2020年底发布了第一批基于自研M1芯片的Mac电脑&…

爆发了!ChatGPT的王炸级更新

最近ChatGPT在互联网行业有多火?恐怕不用小灰多说,大家心中自有答案。 不过,尽管ChatGPT很厉害,但是却存在一个局限。你向它了解最近两年的内容,它都会回复不支持。这是因为ChatGPT模型训练用的是2021年9月之前的数据&…

2021-11-12

高三家长如何填写高校录取志愿事宜 高三家长陪考的目就是和孩子一起经历高考和健康成长的过程,高考成绩真的无法估计,可能超常发挥可能发挥失常,我们从考得好”和“报得好”这两个方面来说了,那么作为家长,要为孩子准…

30 我上车则被套的故事【2019-11-03 2242】

今天我们轻松点,聊聊车。 香港人把买房叫做上车。“不管那么多,赶紧先上车。”这是老一代对年轻人的实用主义传承。在财富积累赛道,上车意味着速度更快;而没有上车的话,个人的发展跟不上城市的发展,在城市发…