DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

摘要

与前代类似, DEYOv2 采用渐进式推理方法 来加速模型训练并提高性能。该研究深入探讨了一对一匹配在优化器中的局限性,并提出了有效解决该问题的解决方案,如Rank 特征和贪婪匹配 。这种方法使DEYOv2的第三阶段能够最大限度地从第一和第二阶段获取信息,而 无需 NMS ,实现端到端优化 。通过组合密集查询、稀疏查询、一对多匹配和一对一匹配,DEYOv2 充分利用了每种方法的优势。与端到端模型DINO 相比, DEYOv2 在两个 epoch 设置中提供了 2.1AP 1.4AP 的显著性能提升。据我们所知,DEYOv2是第一个完全端到端的对象检测器,它结合了经典检测器和基于查询的检测器的各自优势。

1、介绍

经典检测器有一个共同点,它们严重依赖手工制作的组件,如非极大值抑制( NMS )。因为这些检测算法通常输出多个候选边界框,每个边界框对应于可能存在对象的区域。然而,这些候选框之间往往存在重叠或冗余,需要进行筛选和优化。
尽管 NMS 是一种有用的对象检测算法,但它确实有一些局限性。有一个问题是,他 可能会无意中删除与 得分最高的边界框明显重叠的边界框 尤其是在对象密集或大小相似的区域 。此外, NMS 的有效性可能会受到所选IoU 阈值的影响,这可能会导致检测结果的显著变化。在稀疏场景中,它可能会成为经典检测器的性能瓶颈。
检测转换器 DETR 提出了一种创新的基于转换器的对象检测器,该检测器利用了基于转换器的编码器 - 解码器框架。DETR 不依赖 NMS 的手动组件,而是使用匈牙利损失来预测一对一的对象集 ,带来端到端优化。NMS 在拥挤场景中表现不佳,因为它只根据 IoU 和类别简单信息对对象进行集群, 可能会将大小相 似的不同对象分组为一组 。相反, DETR 利用查询之间的交互来利用更复杂的信息并区分它们之间的关系。与NMS 相比,这种方法使 DETR 预测一对一对象集的策略更加合理, 从而在拥挤场景中比使用 NMS 的经典检测器具有更好的性能。
尽管 DETR 引起了研究界的极大兴趣,但它也存在许多问题。首先,应该注意的是, DETR 的收敛速度很慢,需要500 个训练 epoch 才能获得可接受的性能。然而, DEYO 算法从循序渐进的思想中获得了灵感,
为改进 DETR 提供了一个新的视角。 DEYO 使用低成本和高质量 YOLO 预测作为第二阶段 DETR-like 模型 的输入,以降低 DETR-like 模式预测一对一对象集的难度。 DEYO 结合了经典检测和基于查询的检测器各自的优势,从而提高了整体性能。同时, DEYO 也发现了一对一标签分配的局限性 。由于 DETR 使用一对一匹配,因此采用了建立分数差距的策略来抑制冗余的边界框 。这意味着 解码器需要对查询之间的关系 进行建模,并区分最佳和冗余边界框 DEYO 的实验表明,解码器在处理大量几乎相似的冗余边界框方面非常弱。随着proposal 查询的拥塞增加,性能逐渐降低,甚至在不使用 NMS 时训练崩溃。如图 3 所示,随着IoU 阈值的升高,这意味着拥塞增加的查询被输入解码器,性能也会下降,并且当不使用 NMS时,AP 会骤降至 0 。我们发现,在后处理中使用具有低 IoU 阈值的 NMS 并不能缓解这种性能下降。这表明影响最终性能的不仅仅是冗余边界框,但是丰富的bounding box 也严重阻碍了探测器在训练过程中的训练和优化。上述现象表明,基于查询的检测器的过滤能力有限,其对边界框的抑制策略不好,并且对查询初始化有严格要求,这在一定程度上限制了基于查询检测器的设计。DEYO 简单地通过使用 NMS 滤掉冗余的边界框来解决这个问题 ,但如图 9 所示,由于 NMS-IoU 阈值的降低,第一阶段的有效信息损失更大,这不仅破坏了DETR 的端到端优势,还限制了第一阶段的高效信息传输。就像经典的探测器一样,这个问题在拥挤的场景中会加剧。那么,有没有一种方法可以减少信息丢失,实现更优雅,并避免冗余边界框引起的优化?DEYOv2 通过引入 Rank 特征和贪婪匹配 来解决上述问题。 Rank 特征是指通过 置信度对边界框进行排序并通过嵌入进行编码后的 Rank 特征 。将其添加到解码器的查询中,可以使检测器更容易地学习到非极大值抑制策略,从而使检测器面临拥挤的环境。边界框仍然可以保持良好的过滤 效果。贪婪匹配可以不使用额外的标签,使用 GT 作为基准,对每个边界框进行聚类和监督,并引导模型 从每个类中选择具有最大 Rank 的边界框来保留 Rank 特征和贪婪匹配启用 DEYOv2 在从一对多标签分配到一对一标签分配的过度过程中摆脱对NMS 的依赖,它解决了 Transformer 编码器在过滤冗余边界框以实现端到端优化时遇到的优化问题。
在本文中,我们提出了一种称为 DEYOv2 的三阶段对象检测网络的新范式,据我们所知,它是第一个完全端到端的检测器,它结合了经典检测器和基于查询的对象检测器的各自优势。因此,我们的DEYOv2成为端到端目标检测器的新技术。
贡献
1 )我们 提出了第一个完全端到端的对象检测器 ,该检测器结合了经典检测器和基于查询的对象检测器各自的优点,它不仅优于目前最好的端到端检测器,而且不需要依赖手动组件NMS 来过滤掉阶段 1 的冗余边界框,因此推理速度不会延迟并保持稳定。
2 )我们深入分析了冗余 bounding boxes 对端到端优化的影响,并 提出了 Rank 特征和贪婪匹配 ,以使用更合理的策略来过滤掉大量密集的冗余bounding box

2、动机

结合前面的讨论,我们认为 DETR 的解码器在建立每个边界框之间的关系非常成功,和拥挤的边界框相比,应该更难区分稀疏边界框,并且DEYO 在低 IoU 阈值上实现了良好的性能,这表明 DETR 可以很好的处理稀疏边界盒的聚类,因此,DETR 也应该能够很好地处理拥挤的边界框的聚类,后者的难度明显低于前者。这启发我们重新审视当前的滤波策略,分析拥挤的边界盒阻碍检测器优化的原因,并提出有效的解决方案。我们猜测,对于几乎相似的边界框,尽管检测器可以很好地对他们进行聚类,但很难学习到从聚类中选择并保留边界框的有效策略。在极端情况下,对于n 个相同的边界框,使用一对一的标签分配,DETR 不可能从原始数据中学习有效的过滤策略。同时,当边界框过于相似时,也可能导致二进制匹配的不稳定性。进一步阻碍优化,DEYO 简单地使用 NMS 来通过建立 IoU 间隙来避免优化问题。我们认为,建立分数差距也应该取得类似的效果。

3、方法

3.1 Rank 特征

如图 4 所示,当遇到几乎相同的边界框时,检测器很难学习有效的策略来选择要保留的边界框,而这正是NMS擅长的。非极大值策略可以使 NMS 从大量几乎相同的冗余边界框中选择一个边界框,而不会导致性能损失。我们尝试了几种策略,让模型直接从原始数据中学习非最大值抑制策略 ,但都以 失败 告终。为了降低模型的训练难度,受[12] 的启发,引入了 Rank 特征来解决这个问题。研究发现, 添加 Rank 特征 比直接将置信度传递给模型表现得更好 。我们认为性能更好的原因是 Rank 特征可以使模型更容易地学习 非最大值抑制策略 。这是 因为 Rank 特征可以迫使几乎相同的边界框之间存在差距 ,因为即使置信度相同,排名仍然存在顺序差距。根据这个阶差模型,很容易学会选择排名靠前的边界框来保持,这样对于n个相同的边界框,模型仍然可以根据rank 特征区分它们之间的区别,并选择保留的顶级边界框。

3.2 贪婪匹配

在处理几乎相同的冗余边界框时,由于一对一匹配的局限性,与一对一的匹配一样, 基于最小化二分匹 配矩阵的代价来确定边界框保留是不合理的 。我们 提出了一种称为贪婪匹配的标签分配方法 ,其中为每个边界框分配一个具有最小匹配损失的基本事实标签,并且成本矩阵计算方法与阶段3 的一对一匹配一致。我们根据基本事实对边界框进行聚类,并只保留每个聚类中排名最高的边界框,为保留的边界框分配标签1 ,为过滤掉的边界框指定标签 0 。由于很难用电流检测器实现置信度和 IoU 之间的严格正相关,这导致了如图5 所示的情况,其中高 rank 并不一定意味着良好的定位。仅仅靠 rank 进行选择会影响模型选择更好边界框的能力,导致选择位置不佳的高分红色边界框,最终损害模型性能。为了解决这一现象,引入了一个 \theta值来调整标签分配。具体来说,我们将rank-1 分配给 IoU 小于 y rank 小于的对象, 并且只保留rank 大于 1 的对象。这种方法允许更合理的标签分配和更高的性能。此外,通过基于边界框各自的基本事实对其进行聚类。我们的方法引导模型放弃局部对象较差的聚类,降低了任务难度大,加强了过滤策略的学习。

4DEYOv2

4.1 model概述

我们的模型使用 YOLOv5x 作为第一阶段, DINO 作为第三和第二阶段,提供了一个新的基于渐进推理的三阶段模型。YOLOv5x 是经典 YOLO 系列的探测器;它包含一个主干,一个包含 FPN+PAN 的颈部,以及一个输出三尺度预测的头部。作为一个类似DETR 的模型, DINO 包含主干、多层变换编码器、多层变换解码器和多个预测头。它使用锚边界框的静态查询和动态初始化,并涉及用于比较去噪训练的额外CDN分支。DEYOv2 DINO 最大的区别在于, DEYOv2 的第三阶段使用来自第二阶段的高质量建议查询来初 始化查询,整个DEYOv2 模型如图 6 所示。

4.2 密集查询到稀疏查询

由于变换器的计算复杂度随着查询数量的增加而二次增加,因此基于查询的数量通常为 300900 ,并以YOLOv5为例,它可以提供数以万计的查询,这比基于查询的检测器多了几个数据集,并且与基于查询的检测设备相比,维护单个查询的成本要低。我们认为,密集查询中包含的信息可以大大减轻后续稀疏查询检测的负担,从而使stage2 stage3 在密集场景中可以实现更好的性能。然而,由于转换器的计算复杂度与序列呈二次关系,这限制了第2 阶段和第 3 阶段的查询数量。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能多地保留原始密集查询中包含的信息。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能保留原始密集查询中包含的信息。第3 阶段的查询比第1 阶段少,这使得我们可以对查询之间的关系进行建模,并且我们可以像稀疏查询中注入更多信息;即使维护单个稀疏查询的成本高于密集查询的成本,该成本也可以是准确性和速度之间的良好权衡。我们使用一个简单的top-k 和适配器模块来完成从密集查询到稀疏查询的转换。我们相信适配器模块可以最大限度地保留原始密集查询的信息,并是不同输出层查询的维度与稀疏查询的维度一致。

4.3查询选择器

对于端到端优化,我们只需要使用 top-k 来完成从密集查询到稀疏查询的替换。然而,应该注意的是,NMS仍然是最大程度地保留阶段 1 信息的过渡方法。如图 7 所示,由于 stage1 中存在大量冗余边界框,因 此直接使用top-k 选择策略会导致所选查询中存在大量信息溶于。 NMS 可以解决这个问题, DEYOv2 中采用NMS 的动机与 DEYOv2 不同,只是为了尽可能地过滤掉冗余信息。由于查询过滤器的存在,我们不必担心IoU 阈值的设置不合理,这使得模型的优化变得困难。这使我们能够基于 PRE-Matching 快速调整IoU阈值参数,而不像 DEYO 那样只有在得道训练的最终结果后才能评估 IoU 阈值的质量。

4.4 查询筛选器

DEYOv2 使用查询过滤器,放弃了 NMS 对过滤冗余边界框的依赖,完全实现了端到端。查询筛选器只需要设置一个置信阈值过滤候选边界框像大多数端到端检测器一样,以完成冗余边界框的过滤。在DEYOv2中,我们将置信阈值设置为 0.1 ,我们使用贪婪匹配为查询过滤器的输出分配标签。我们使用焦点损失来监督查询过滤器对冗余边界框的过滤。通过一个简单的策略:0 表示过滤掉的, 1 表示保留的,
并将大量高置信度的类似冗余对象返回到低置信度。基于这种策略,可以将建立的分数差距传递给阶段
3 ,这便于阶段 3 进一步过滤边界框。由于过滤查询的数量不是恒定的,如图 8 所示,我们将过滤查询插入解码器的init 查询中,可以保证批量培训。

4.5一对多与一对一匹配

正如本文前面多分析的, IoU 和置信度之间的严格正相关是当前检测器的一个困难条件。在贪婪匹配中,我们用实际边界框过滤掉IoU<0.6 的所有边界框,使模型获得更好的性能。其次,贪婪匹配聚类围绕基本事实,这两者都会导致一些定位不佳的边界框进行过滤。查询过滤过滤掉一些冗余的边界框,代价是一些定位不好的边界框的召回率,这在一定程度上影响了最终的性能,所以我们使用具有一对一匹配的stage3来补偿这部分性能损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/281872.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【IEEE】Multimodal Machine Learning: A Survey and Taxonomy

不废话&#xff0c;先上思维导图&#xff0c;哈哈哈&#xff01; 论文题目Machine Learning: A Survey and Taxonomy作者Tadas Baltrusaitis , Chaitanya Ahuja , and Louis-Philippe Morency状态已读完会议或者期刊名称IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE IN…

电机与直线模组选型

一。普通电机选型 普通电机选型&#xff08;一&#xff09; 三相异步电机 定子&#xff1a;产生旋转磁场 转子&#xff1a;切割磁场&#xff0c;产生洛伦兹力 结构简单&#xff0c;成本低&#xff0c;稳定 效率较低&#xff0c;转速不稳定 N60f/P 定子旋转速度&#xff1a;150…

ubuntu系统下如何使用vscode编译和调试#小白入门#

编程环境&#xff1a;ubuntu系统为18.04.1&#xff0c;vscode版本为1.66.2 一、VSCode切换中文显示&#xff1a; 1、vscode安装完成后启动,在左侧externsions中搜索“简体中文”插件&#xff0c;并完成安装&#xff1a; 2、选择右下角齿轮形状的"Manage"&#xff…

运动想象 (MI) 迁移学习系列 (14) : EEGNet-Fine tuning

运动想象迁移学习系列:EEGNet-Fine tuning 0. 引言1. 主要贡献2. 提出的方法2.1 EEGNet框架2.2 微调 3. 实验结果3.1 各模型整体分类结果3.2 算法复杂度比较3.3 不同微调方法比较 4. 总结欢迎来稿 论文地址&#xff1a;https://www.nature.com/articles/s41598-021-99114-1#cit…

【HTTP完全注解】范围请求

范围请求 范围请求是HTTP的一种内容协商机制&#xff0c;该机制允许客户端只请求资源的部分内容。范围请求在传送大的媒体文件&#xff0c;或者与文件下载的断点续传功能搭配使用时非常有用。 范围请求的工作流程 范围请求通过在HTTP请求标头Range中表明需要请求的部分资源的…

可视化日记——极坐标绘制雷达图

目录 一、创建极坐标 二、数据集准备 三、划分角度 四、指定半径 五、绘制 一、创建极坐标 Python中没有直接画雷达图的函数&#xff0c;若要绘制需要先创建画布和极坐标轴域&#xff0c;再设定角度与半径的参数&#xff08;极坐标中角度与半径确定一个点的位置&#xff…

专业135+总分400+重庆邮电大学801信号与系统考研经验重邮电子信息与通信工程,真题,大纲,参考书。

今年分数出来还是比较满意&#xff0c;专业801信号与系统135&#xff0c;总分400&#xff0c;没想到自己也可以考出400以上的分数&#xff0c;一年的努力付出都是值得的&#xff0c;总结一下自己的复习心得&#xff0c;希望对大家复习有所帮助。专业课&#xff1a;&#xff08;…

(ROOT)KAFKA详解

生产篇 使用 /** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information regarding copyright ownership.* The ASF licenses this file to Y…

设计模式学习笔记 - 设计原则与思想总结:2.运用学过的设计原则和思想完善之前性能计数器项目

概述 在 《设计原则 - 10.实战&#xff1a;针对非业务的通用框架开发&#xff0c;如何做需求分析和设计及如何实现一个支持各种统计规则的性能计数器》中&#xff0c;我们讲解了如何对一个性能计数器框架进行分析、设计与实现&#xff0c;并且实践了一些设计原则和设计思想。当…

macOS 通过 MacPorts 正确安装 MySQL 同时解决无法连接问题

如果你通过 sudo port install 命令正常安装了 MySQL&#xff0c;再通过 sudo port load 命令启动了 MySQL Server&#xff0c;此刻却发现使用 Navicat 之类的 GUI 软件无法连接&#xff0c;始终返回无法连接到 127.0.0.1 服务器。这是一个小坑&#xff0c;因为他默认使用了 So…

Git——GitHub远端协作详解

目录 Git&GitHub1、将内容Push到GitHub上1.1、在GitHub上创建新项目1.2、upstream1.3、如果不想要相同的分支名称 2、Pull下载更新2.1、Fetch指令2.2、Fetch原理2.3、Pull指令2.4、PullRebase 3、为什么有时候推不上去3.1、问题复现3.2、解决方案一&#xff1a;先拉再推3.3…

vue+element 前端实现增删查改+分页,不调用后端

前端实现增删查改分页&#xff0c;不调用后端。 大概就是对数组内的数据进行增删查改分页 没调什么样式&#xff0c;不想写后端&#xff0c;当做练习 <template><div><!-- 查询 --><el-form :inline"true" :model"formQuery">&l…

Git 仓库瘦身与 LFS 大文件存储

熟悉 Git 的小伙伴应该都知道随着 Git 仓库维护的时间越来越久&#xff0c;追踪的文件越来越多&#xff0c;git 存储的 objects 数量会极其庞大&#xff0c;每次从远程仓库 git clone 的时候都会墨迹很久。如果我们不小心 git add 了一个体积很大的文件&#xff0c;且 git push…

云原生部署手册02:将本地应用部署至k8s集群

&#xff08;一&#xff09;部署集群镜像仓库 1. 集群配置 首先看一下集群配置&#xff1a; (base) ➜ ~ multipass ls Name State IPv4 Image master Running 192.168.64.5 Ubuntu 22.04 LTS1…

大模型赋能机器狗,西工大离线具身智能研究取得新突破!

“啪嗒啪嗒…”&#xff0c;一只机器狗在街上迈着规律的步伐&#xff0c;拉着牵引绳的盲人&#xff0c;在它的带领下越过沿路障碍&#xff0c;平稳地行走着。电子导盲犬能否取代传统导盲犬&#xff0c;解决视障人士一犬难求的困境&#xff1f;西工大团队在此方面开展研究攻关&a…

安卓使用MQTT实现阿里云物联网云台订阅和发布主题(3)

一、订阅主题代码讲解 private final String mqtt_sub_topic "/sys/k0wih08FdYq/LHAPP/thing/service/property/set";//订阅话题//mqtt客户端订阅主题//QoS0时&#xff0c;报文最多发送一次&#xff0c;有可能丢失//QoS1时&#xff0c;报文至少发送一次&#xff0c…

linux网络固定ip的方式

1. 注意 默认情况下&#xff0c;我们linux操作系统 ip 获取的方式是自动获取的方式&#xff08;DHCP&#xff09;&#xff0c;自动获取在我们需要进行集群配置的时候&#xff0c;IP会经常变化&#xff0c;需要将IP固定下来。 2. 第一步 编辑我们 linux 的网卡文件 这个网卡文件…

MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

【目标检测】2. RCNN

接上篇 【目标检测】1. 目标检测概述_目标检测包括预测目标的位置吗?-CSDN博客 一、前言 CVPR201 4经典paper:《 Rich feature hierarchies for accurate object detection and semantic segmentation》&#xff0c;https://arxiv.org/abs/1311.2524, 这篇论文的算法思想被称…

静态路由实验(HCIP部分)

1、拓扑信息 2、需求分析 3、IP规划 4、配置截图 5、测试 1、拓扑信息 2、需求分析 1、 R6为isp,接口IP地址均为公有地址&#xff1b;该设备只能配置IP地址&#xff0c;之后不能再对其进行其他任何配置; 分析&#xff1a; R6只需配置一个环回和链路物理接口IP即可 2 、R1-R5为…