DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 重新审视 Transformers 和 DETR
    • 4 方法
      • 4.1 用于端到端目标检测的可变形transformer
      • 4.2 Deformable Detr的其他改进和变型
    • 5 实验
      • 5.1 和DETR 比较
      • 5.2 消融实验
      • 5.3 与最先进方法的比较
    • 6 结论

FOR END-TO-END OBJECT DETECTION)

摘要

DETR最近被提出,旨在消除目标检测中许多手工设计组件的需要,同时表现出良好的性能。然而,它在收敛速度较慢和特征空间分辨率有限方面存在问题,这是由于Transformer注意模块在处理图像特征图时的局限性。为了减轻这些问题,我们提出了Deformable DETR,其注意模块仅关注围绕参考点的一小组关键采样点。Deformable DETR可以在比DETR少10倍的训练时期内实现更好的性能(特别是在小目标上)。对COCO基准的大量实验证明了我们方法的有效性。代码已发布在https://github.com/fundamentalvision/Deformable-DETR。

1 介绍

现代目标检测器使用许多手工设计的组件(Liu等,2020),例如锚点生成、基于规则的训练目标分配、非极大值抑制(NMS)后处理等。它们不是完全端到端的。最近,Carion等人(2020)提出了DETR,以消除对这些手工设计组件的需求,并构建了第一个完全端到端的目标检测器,实现了非常有竞争力的性能。DETR利用了一个简单的架构,将卷积神经网络(CNNs)和Transformer(Vaswani等,2017)编码器-解码器组合在一起。他们充分利用了Transformer的多功能和强大的关系建模能力,以替代手工制定的规则,在适当设计的训练信号下实现了这一目标。

尽管DETR具有有趣的设计和良好的性能,但它也存在一些问题:(1)DETR需要比现有的目标检测器更长的训练周期才能收敛。例如,在COCO(Lin等,2014)基准测试中,DETR需要500个周期才能收敛,这大约比Faster R-CNN(Ren等,2015)慢10到20倍。 (2)DETR在检测小目标方面性能相对较低。现代目标检测器通常利用多尺度特征,其中小目标是从高分辨率特征图中检测的。与此同时,高分辨率特征图会导致DETR的复杂度不可接受。上述问题主要归因于Transformer组件在处理图像特征图方面的不足。在初始化时,注意模块将几乎均匀的关注权重分配给特征图中的所有像素。需要较长的训练周期来学习关注权重以便聚焦在稀疏的有意义的位置上。另一方面,Transformer编码器中的注意权重计算与像素数量呈二次计算关系。因此,处理高分辨率特征图具有非常高的计算和内存复杂度。

在图像领域,可变形卷积(Deformable Convolution)是一种强大且高效的机制,可以聚焦于稀疏的空间位置。它自然地避免了上述提到的问题。然而,它缺乏元素关系建模机制,这是DETR成功的关键。
在这里插入图片描述
在本论文中,我们提出了Deformable DETR,它缓解了DETR的收敛速度慢和高复杂性的问题。它结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力。我们提出了可变形注意模块,它作为所有特征图像素中杰出关键元素的预过滤器,关注一小组采样位置。该模块可以自然地扩展到聚合多尺度特征,无需FPN(特征金字塔网络)的帮助。在Deformable DETR中,我们利用(多尺度)可变形注意模块替换了处理特征图的Transformer注意模块,如图1所示。

Deformable DETR为我们提供了利用各种端到端目标检测器变种的可能性,这要归功于其快速的收敛速度以及计算和内存的高效性。我们探索了一种简单而有效的迭代边界框细化机制,以提高检测性能。我们还尝试了一个两阶段的Deformable DETR,其中区域提议也是由Deformable DETR的变种生成的,然后输入解码器进行迭代边界框细化。

在COCO基准测试上进行的大量实验证明了我们方法的有效性。与DETR相比,Deformable DETR在需要的训练时期较少的情况下可以取得更好的性能(尤其是对于小目标)。提出的两阶段Deformable DETR的变种可以进一步提高性能。代码已发布在https://github.com/fundamentalvision/Deformable-DETR。

2 相关工作

高效的注意力机制。Transformers(Vaswani等人,2017)涉及自注意力和交叉注意力机制。 Transformers 最为人所知的一个问题是,在大量关键元素的情况下,其时间和内存复杂度非常高,这在许多情况下限制了模型的可扩展性。最近,已经进行了许多努力来解决这个问题(Tay等人,2020b),这

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/127347.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

构建知识库:一文解决跨平台科研文献及笔记同步问题

文章目录 需求及目标现有方案调研文献管理方案云存储方案Markdown编辑器Windows端Ipad端 图床管理方案 最终方案操作流程最后 作为一个十级懒人,要么躺着要么在探寻提效工具的路上。 开始打工生涯之后,除了正常工作时间,总想利用业余时间提升…

vscode调试程序设置

主要设置和json内容如下: cpp_properties.json内容: {"configurations": [ //C intellisense插件需要这个文件,主要是用于函数变量等符号的只能解析{"name": "Win32","includePath": ["${work…

【IC设计】Chisel开发环境搭建

首先安装一个Ubuntu的虚拟机 然后给Ubuntu换个镜像,方便下载 注意换源后使用apt-get update更新下 安装vim(可以不做) 这里安装Vim是我感觉Ubuntu自带的vi编辑器似乎有问题,因为我按i进入【插入模式】并没有提示,所以…

Python+Requests+Pytest+Excel+Allure 接口自动化测试项目实战【框架之间的对比】

--------UnitTest框架和PyTest框架的简单认识对比与项目实战-------- 定义: Unittest是Python标准库中自带的单元测试框架,Unittest有时候也被称为PyUnit,就像JUnit是Java语言的标准单元测试框架一样,Unittest则是Python语言的标…

离子风蛇有什么作用?

离子风蛇的工作原理是通过内置的高压发生器升至高压电晕空气生成正负离子,再随风流覆盖至物体表面,从而中和其所带的正负静电电荷,这是一种用在工厂里面的工业设备,主要的作用是用来消除静电,其次还可以达到除尘和杀菌…

计算机专业毕业设计项目推荐01-生产管理系统(JavaSpringBoot+原生Js+Mysql)

生产管理系统(JavaSpringBoot原生JsMysql) **介绍****系统总体开发情况-功能模块****各部分模块实现****最后想说的****联系方式** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以…

数据库原理及应用(MySQL)

建议大屏观看,避免格式错误,影响观感 目录 第一章 数据库系统概述 1.数据库系统概述 1.1.信息 1.2.数据 1.3.信息和数据之间的联系 1.4.数据库(DB) 1.5.数据库管理系统(DBMS) 1.6.数据库管理系统的…

Java多线程(一)多线程概要

多线程概要 多线程概要 什么是进程? 进程的特点: 什么是多线程 多线程编程: 创建线程 1.继承 Thread 类 2.实现 Runnable 接口 多线程的优势 中断问题: 1. 通过共享的标记来进行沟通 2. 调用 interrupt() 方法来通知 …

Python散点图

散点图 散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间…

显示器鼠标滚动时或者拖拽文字变为绿色

新电脑,新显示器,看文章时滚动鼠标滑轮,文字颜色就变为绿色。 拖住文本文档或者浏览器等有文字的窗口,文字也会变为绿色。 静止时一点儿问题没有。 以下视频展示滚动和拖拽的操作,视频看不出变色,只参考…

科技云报道:AI时代,对构建云安全提出了哪些新要求?

科技云报道原创。 随着企业上云的提速,一系列云安全问题也逐渐暴露出来,云安全问题得到重视,市场不断扩大。 Gartner 发布“2022 年中国 ICT 技术成熟度曲线”显示,云安全已处于技术萌芽期高点,预期在2-5年内有望达到…

AOI软件之 CAD图纸导入功能

在这里,我不过多的解释AOI,半导体检测行业内的小伙伴自然会懂;我也不会过多解释何为diemap或者wafer-layout。因为我们本文的核心场景仅仅是cad图纸的解析和基本绘图的二次开发。而且我们紧紧是面向行业内的场景需求来说明此功能。 无图我说…

【Kafka】Kafka再平衡机制及相关参数

背景 Kafka作为一款基于发布订阅模式的消息队列,生产者将消息发送到Kafka集群(Brokers)中,消费者(Consumer Group )拉取消息进行消费,实现了异步机制。Kafka中,消费者通常以消费者组…

【Sentinel】ProcessorSlotChain处理器插槽链与Node

文章目录 1、Sentinel的基本概念2、ProcessorSlotChain3、Node 1、Sentinel的基本概念 Sentinel实现限流、隔离、降级、熔断等功能,本质要做的就是两件事情: 统计数据:统计某个资源的访问数据(QPS、RT等信息)规则判断…

Redis高并发分布式锁实战

高并发场景秒杀抢购超卖bug实战重现 秒杀抢购场景下实战JVM级别锁与分布式锁 大厂分布式锁Resisson框架实战 Lua脚本语言快速入门与使用注意事项 Redisson分布式锁源码剖析 Redis主从架构锁失效问题解析 从CAP角度剖析Redis与Zookeeper分布式锁区别 Redlock分布式锁原理与…

Qt QTreeWidge解决setItemWidget后,导致复选框失效

一、问题: QTreeWidget某一项加上itemWidget后,导致复选框失效问题 二、解决方法 将要加上的widget控件加到该项的后续的列,即控件跟复选框不同一列 三、具体代码 QTreeWidget* treeW new QTreeWidget; treeW->setColumnCount(2); /…

centos编译升级cmake,痛苦的Linux小白

环境 root 用户 下载 cmake官网下载地址:https://cmake.org/download/ 获取下载地址,右击cmake-3.27.4.tar.gz 命令行输入链接地址,下载 wget https://github.com/Kitware/CMake/releases/download/v3.27.4/cmake-3.27.4.tar.gz解压 tar -zx…

Git_回退到上一次commit与pull

git 回退到上个版本 rollback 回滚 git reset HEAD, git 回退到上一版本

MySQL 连接查询

文章目录 1.什么是连接查询2.连接类型内连接交叉连接左连接右连接自然连接 3.连接条件4.隐式连接使用逗号连接表逗号与 JOIN 的优先级 5.全外连接6.小结参考文献 1.什么是连接查询 在关系型数据库管理系统(RDBMS)中,连接查询是一项重要的数据…

桉木板材的优缺点

桉木(Eucalyptus)是一种常见的木材品种,具有一些独特的特点和用途。以下是桉木板材的一些优点和缺点: 优点:强度高:桉木具有较高的密度和强度,使其在承重和结构应用中表现出色。它的强度比一些其…