论文笔记 DETR

detr

摘要和引言
  • 2020论文facebook
  • 不需要proposal,不需要基于anchor的先验知识(比如预训练的模型),也不需要NMS进行筛选,直接端到端不需要后处理
  • 利用transformer的全局建模能力,看成集合预测问题,不会输出很多冗余的框,直接端到端,不需要NMS,简化了训练和部署
  • NMS:非极大值抑制,抑制掉冗余的框
  • anchor:滑动窗口,需要手动设计特征并判断提取,会产生大量候选框;直到Faster RCNN出现直接使用RPN网络预测候选框,使用神经网络取代计算特征过程,直接使用神经网络输出anchor是否包含物体,anchor指在不同尺寸的特征图的每个点设置N个不同尺寸的框框。
  • 使用二分图匹配的方式替代冗余的框,解码器时使用了learned object queries,类似anchor了,并行输出检测框
  • 简单!只需支持CNN和transformer即可部署!
  • 同时尝试了分割任务,只需加一个分割头即可
  • 在这里插入图片描述
  • 图像通过CNN获取特征,然后拉直送入transformer,encoder进一步学习全局信息,每一个点与其他的点就有交互了,decoder出一系列预测框;其中transformer中还需要与object queries(限定出多少框,文中为100个框 )进行交互;最后使用二分图匹配计算loss。取决于物体数量,选出对应的独一无二的几个框后,再正常计算类别loss和bandingbox的loss。
  • 推理时前面相同,在生成一系列预测框后,卡一个输出的置信度,比如大于0.7的,被当作前景物体保留下来
  • 对大物体表现非常好,小物体上比较差,但之后deformable DETR出现,通过多尺度特征,解决了小物体问题,并解决了训练太慢的问题
相关工作
  • 第一部分讲下集合预测问题,和大家怎么解决的;第二部分讲了transformer为什么不是自回归
  • 之前两阶段的proposal,一阶段的anchor,和物体中心点;都和初始的猜测非常相关。后处理对预测结果非常重要
  • 之前有基于集合的目标函数,也有匈牙利算法二分图匹配,也有使用RNN进行编码解码,但由于没使用transformer,骨干网络输出的特征不够强,需要人工干预
详细模型
  1. 基于集合的目标函数:
    • 输出为固定的集合,输出N个框,然后进行二分图匹配,匈牙利算法是解决二分图匹配的最好算法
    • 使用scipy中的自带函数输入花费矩阵,输出最优排列,即为每个人分配最擅长的工作,最后的总花费最小,在本问题就是100个预测框与ground truth的几个框组成花费矩阵。
    • 花费就是为loss,使用函数计算分类loss和边界框loss组成花费,分类loss和边界框loss在同样的取值空间中,边界框loss没有只使用L1loss,而是加上了IOUloss,一起计算来减少框的大小对loss的影响
    • 这与proposal和anchor一个原理,不过强行一对一匹配;先算出最优匹配再算loss
      在这里插入图片描述
  2. DETR的结构
    • object queries:一个可学习的position embedding
    • FFN:全连接层
    • 在这里插入图片描述
实验
  • 与Faster RCNN的对比:
  • 在这里插入图片描述
  • encoder学到了什么?可以把物体分割的很好,可视化:
  • 在这里插入图片描述
  • 实验了transformer为3、6、9层的不同效果:
  • 在这里插入图片描述
  • deconder学到了什么?对边缘极值点进行了学习
  • 在这里插入图片描述
  • object queries学到了什么?自学了适应数据集的anchor,

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/137331.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈DBT的一些不足之处

DBT的好处是显而易见的,它支持连接多达41种数据库。而且不需要你写DDL语句,只要写select语句,DBT会自动帮你推断schema结构,将数据写入到数据库中: 但是使用了一段时间之后,发现DBT也存在着如下这些不足之处…

竞赛 基于机器学习与大数据的糖尿病预测

文章目录 1 前言1 课题背景2 数据导入处理3 数据可视化分析4 特征选择4.1 通过相关性进行筛选4.2 多重共线性4.3 RFE(递归特征消除法)4.4 正则化 5 机器学习模型建立与评价5.1 评价方式的选择5.2 模型的建立与评价5.3 模型参数调优5.4 将调参过后的模型重…

JumpServer未授权访问漏洞 CVE-2023-42442

JumpServer未授权访问漏洞 CVE-2023-42442 一、漏洞描述二、漏洞影响三、网络测绘四、漏洞复现poc通过burp发送请求包小龙POC检测 五、修复建议 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接…

Redis代码实践总结

一、背景: redis从安装到实践,做一些具体的记录。 1.1 Redis和 RedisStack和Redis Enterprise redis简介 Redis 是一种开源(BSD 许可)内存中数据结构存储,用作数据库、缓存、消息代理和流引擎。 Redis 提供数据结构…

(JavaEE)(多线程案例)线程池 (简单介绍了工厂模式)(含经典面试题ThreadPoolExector构造方法)

线程诞生的意义,是因为进程的创建/销毁,太重了(比较慢),虽然和进程比,线程更快了,但是如果进一步提高线程创建销毁的频率,线程的开销就不能忽视了。 这时候我们就要找一些其他的办法…

pte初步认识学习

我们的时间的确很少,但是我们每天都乐意将珍贵的时间浪费在大量毫无意义的事情上 目录 pte介绍 PTE口语评分规则 pte架构 计算机科学23 QS排名 《芭比》 pte介绍 PTE口语评分规则 有抑扬顿挫 对于连读 不能回读 native pte对于个别单词没有读好&#xff0c…

【探索C语言中VS调试技巧】:提高效率和准确性

文章目录 前言1. 什么是bug?2. 调试是什么?有多重要?2.1 调试是什么?2.2 调试的基本步骤2.3 Debug和Release的介绍 3. Windows环境调试介绍3.1 调试环境的准备3.2 学会快捷键3.3 调试的时候查看程序当前信息3.3.1 查看临时变量的值…

C语言生成随机数、C++11按分布生成随机数学习

C语言生成随机数 如果只要产生随机数而不需要设定范围的话,只要用rand()就可以;rand()会返回一随机数值, 范围在0至RAND_MAX 间;RAND_MAX定义在stdlib.h, 其值为2147483647; 如果想要获取在一定范围内的数的话,直接做…

【数据分享】2023年全国地级市点位数据(免费获取\shp格式\excel格式)

地级市点位数据是我们各项研究中经常使用到的数据,在之前的文章中我们分享过2022年度的地级市及以上城市的点位数据(可查看之前的文章获悉详情)。本次我们带来的是2023年度的全国范围的地级市及以上城市的点位数据,点位位置为市政…

大数据Flink(八十四):SQL语法的DML:窗口聚合

文章目录 SQL语法的DML:窗口聚合 一、滚动窗口(TUMBLE)

[激光原理与应用-68]:如何消除50Hz工频干扰和差分信号应对工频干扰

目录 一、什么工频干扰 1.1 什么工频干扰 1.2 工频干扰的幅度 1.3 工频干扰如何进入设备 1.4 工频干扰的负面影响 二、如何消除工频干扰 2.1 要消除工频干扰,可以考虑以下方法: 2.2 要具体消除工频干扰,可以采取以下措施 2.3 使用差…

React(react18)中组件通信04——redux入门

React(react18)中组件通信04——redux入门 1. 前言1.1 React中组件通信的其他方式1.2 介绍redux1.2.1 参考官网1.2.2 redux原理图1.2.3 redux基础介绍1.2.3.1 action1.2.3.2 store1.2.3.3 reducer 1.3 安装redux 2. redux入门例子3. redux入门例子——优…

Mybatis 中 SQL 注入攻击的 3 种方式

SQL注入漏洞作为WEB安全的最常见的漏洞之一,在java中随着预编译与各种ORM框架的使用,注入问题也越来越少。往往对Java Web应用的多个框架组合而心生畏惧,不知如何下手,希望通过Mybatis框架使用不当导致的SQL注入问题为例&#xff…

[Qt/C/C++]JSON和程序发布

文章摘于 爱编程的大丙 文章目录 1. JSON1.1 Json数组1.2 Json对象1.3 注意事项 2. Qt中JSON操作2.1 QJsonValue2.2 QJsonObject2.3 QJsonArray2.4 QJsonDocument2.5 举例2.5.1 写文件2.5.2 读文件 3. cjson库的使用3.1 cJSON结构体3.2 cJson API3.2.1 数据的封装3.2.2 Json对…

Kotlin File FileTreeWalk walkTopDown onEnter onLeave

Kotlin File FileTreeWalk walkTopDown onEnter onLeave Python遍历文件目录os.walk_for subfolder in subfolders: print(foldername/_zhangphil的博客-CSDN博客import osfor folderName, subfolders, filenames in os.walk(rD:\code\vs_code): print(当前文件夹: folderName…

踩坑:Invalid character found in method name. HTTP method names must be tokens

一、原因 在进行本地小程序与服务端请求时,由于加了签名认证,访问接口时报错 Spring boot端 小程序端 二、解决方案 2.1 更改访问路径 将https:更换成http: 示例:https://localhost:8080 改为 http://localhost:8080 2.2其他原因 ssl证书到期了Tomcat的header缓冲区大小不…

Python 搭建编程环境

一、搭建编程环境 1、下载python 官网:https://www.python.org 2、开始安装 下载安装版本,双击下载的安装包,如下: 步骤一: 步骤二: 步骤三: 安装完成后执行下面的操作,判断是否…

用Jmeter进行压测详解

简介: 1.概述 一款工具,功能往往是很多的,细枝末节的地方也很多,实际的测试工作中,绝大多数场景会用到的也就是一些核心功能,根本不需要我们事无巨细的去掌握工具的所有功能。所以本文将用带价最小的方式讲…

vue的由来、vue教程和M-V-VM架构思想、vue的使用、nodejs

vue vue的由来 vue教程和M-V-VM架构思想 vue的初步简单使用 nodejs vue的由来 # 1 HTML(5)、CSS(3)、JavaScript(ES5、ES6、ES11):编写一个个的页面 -> 给后端(PHP、Python、Go、Java) -> 后端嵌入模板语法 -> 后端渲染完数据 -> 返回数据给前端 ->…

国泰君安基本操作学习

对于主面板 1.放大或者缩小k线方法:按着ctrl键滚轮 2.切到历史k线:不断缩小k线后,把鼠标放置k线位置再按着ctrl滚轮放到可以切到当时的历史数据。 ★3.上下切换股票:滚轮。 ★4.面板直接输入股票代码后,自动弹出窗…