DETR：End-to-End Object Detection with Transformers

news/2024/11/16 21:33:10/文章来源:https://blog.csdn.net/Scabbards_/article/details/132873149

代码：https://github.com/HuKai97/detr-annotations

论文：https://arxiv.org/pdf/2005.12872.pdf

参考视频：DETR 论文精读【论文精读】_哔哩哔哩_bilibili

团队：Meta AI

摘要

DETR 做目标检测任务既不需要proposal，也不需要anchor，直接用Transformer全局预测能力把目标检测看成一个集合预测的问题，不需要用nms作后处理

对于一张图片，固定预测一定数量的物体（原作是100个，在代码中可更改），模型根据这些物体对象与图片中全局上下文的关系直接并行输出预测集，也就是 Transformer 一次性解码出图片中所有物体的预测结果，这种并行特性使得 DETR 非常高效。

背景

相关工作

目标检测

现在大部分的目标检测都是根据已有的初始预测去做一些猜测

twostage：初始猜测是proposal

singlestage:初始猜测是anchor

后处理：

猜想：1）set based loss 2)recurrent detector

贡献

1）把目标检测做成端到端的框架，删除依赖于人的先验的部分，比如最大值抑制和生成anchor

2）提出新的目标函数，通过二分图匹配的方式强制模型输出独一无二的预测

3）用了Transformer Encoder和Decoder的架构，解码器的时候有另外一个输入：learn object queries，和全局图像信息结合在一起，通过不停做注意力操作让模型直接输出预测框

方法

DETR模型结构

step1：

先用卷积神经网络来抽取特征

step2：

拿到特征之后拉直送到Transformer encoder-decoder里面

step3：

encoder继续学习全局信息（非常有利于去移除冗余的框），为decoder的出预测框进行铺垫

step4：

decoder中进行object query，但是这里的object query有多少个就决定了它后面会有多少个框

但是六层decoder中第一层可以不做自注意力

六个decoder中都加了ffn（trick）

step5：

训练的时候通过二分图匹配的方法去算最后的loss，匹配上ground truth之后才会去算一个分类的loss和bounding box的loss；剩下的框被视作背景类；

推理的时候不用loss，直接用罚值去卡一下置信度

*2048~256是通过1x1卷积实现的

*这里拉直是指把HXW（25*24~850)

*object embedding 是 learnable positional embedding

*cross attention：850*256喝100*256反复做自注意力操作

*拿到100*256之后就进行预测了，也就是检测头，不过检测头是标准MLP，做两个预测，一个类别预测一个出框预测

基于集合的目标函数

先生成一百个框

如何知道哪个框对应预测框？-二分图匹配 e.g匈牙利算法/linear sum assignment去解决

最后的公式↓ 分类loss+出框loss；先去算最优匹配，再在最优匹配上面算loss

结果

在大目标检测上效果好，小目标检测效果不是很好

改进：deformable DETR，引入多尺度特征，解决DETR训练太慢的问题

transformer编码器

自注意力可视化

transformer解码器

对于头和尾巴等边缘极值点decoder能处理好，并且处理遮挡问题

Object Query可视化

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/134983.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

elasticsearch4-文档操作

elasticsearch4-文档操作

个人名片： 博主：酒徒ᝰ. 个人简介：沉醉在酒中，借着一股酒劲，去拼搏一个未来。本篇励志：三人行，必有我师焉。本项目基于B站黑马程序员Java《SpringCloud微服务技术栈》，SpringCloud…

阅读更多...

html的日期选择插件

html的日期选择插件

1.效果 2.文档 https://layui.gitee.io/v2/docs/ 3.引入官网地址： https://layui.gitee.io/v2/ 引入（在官网下载，）jquery-1.7.2.min.js,layui/layui.js **<link href"js/layui/css/layui.css" rel"stylesh…

阅读更多...

哈夫曼编码原理及实现

哈夫曼编码原理及实现

文章目录一.哈夫曼编码原理哈夫曼二叉树构建二.具体代码实现一.哈夫曼编码原理哈夫曼编码（Huffman Coding）是一种用于数据压缩的编码方法，它通过给出不同的数据符号分配不同长度的编码，使得出现频率高的符号具有较短的编码&a…

阅读更多...

OpenCV(四十一)：图像分割-分水岭法

OpenCV(四十一)：图像分割-分水岭法

1.分水岭方法介绍 OpenCV 提供了分水岭算法（Watershed Algorithm）的实现， 使用分水岭算法对图像进行分割，将图像的不同区域分割成互不干扰的区域。分水岭算法模拟了水在图像中的扩散和聚集过程，将标记的边界被看作是阻…

阅读更多...

PHP8中获取并删除数组中第一个元素-PHP8知识详解

PHP8中获取并删除数组中第一个元素-PHP8知识详解

我在上一节关于数组的教程，讲的是在php8中获取并删除数组中最后一个元素，今天分享的是相反的：PHP8中获取并删除数组中第一个元素。回顾一下昨天的知识，array_pop()函数将返回数组的最后一个元素，今天学习的是使用arr…

阅读更多...

Vue自动生成二维码并可下载二维码

Vue自动生成二维码并可下载二维码

遇到一个需求，需要前端自行生成用户的个人名片分享二维码，并提供二维码下载功能。在网上找到很多解决方案，最终吭哧吭哧做完了，把它整理记录一下，方便后续学习使用！嘿嘿O(∩_∩)O~ 这个小东西有以下功能特点…

阅读更多...

AWT中常用组件

AWT中常用组件

笔记：https://www.yuque.com/huangzhanqi/rhwoir/repuodh23fz01wiv 仓库：Java图形化界面: Java图形化界面学习demo与资料 (gitee.com) 基本组件组件名功能 Button Button Canvas 用于绘图的画布 Checkbox 复选框组件（也可当做单选…

阅读更多...

批量获取CSDN文章对文章质量分进行检测，有助于优化文章质量

批量获取CSDN文章对文章质量分进行检测，有助于优化文章质量

📚目录 ⚙️简介✨分析获取步骤⛳获取文章列表☘️前期准备✨ 接口解析⚡️ 获取文章的接口 ☄️文章质量分接口⭐接口分析 ⌛代码实现：⚓核心代码:⛵测试用例:⛴ 运行效果:☘️增加Excel导出 ✍️结束 ⚙️简介有时候我们写文章是为了记录当下遇到的bu…

阅读更多...

查看表结构

查看表结构

MySQL从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129334507?spm1001.2014.3001.5502 语法格式: desc 表名; 描述: 如果表不存在,就提示不存在; 如果表存在,就显示表的结构比如: desc test01; desc test02; 错误示范: mysql> …

阅读更多...

systemserver的inputdispatcher直接产生CANCEL事件原理分析-讨厌的android触摸面试题

systemserver的inputdispatcher直接产生CANCEL事件原理分析-讨厌的android触摸面试题

背景回顾： 上一个blog已经重点讲解了app层面自己产生的Cancel触摸事件，大概产生的原理如下： 上一个blog地址：https://blog.csdn.net/learnframework/article/details/124086882 即可以看出来，在服务端systemserver其实…

阅读更多...

vue3-vant4-vite-pinia-axios-less学习日记

vue3-vant4-vite-pinia-axios-less学习日记

代码地址 GitHub：vue3-vant4-vite-pinia-axios-less 效果如图 1.首页为导航栏 2.绑定英雄页 3.注册页 4.英雄列表页 5.后面不截图了，没啥了模块 1.vant4：按需引入组件样式文档 2.安装该vite-plugin-vue-setup-extend插件可以直接在…

阅读更多...

基于Java+SpringBoot+Vue的图书借还小程序的设计与实现（亮点：多角色、点赞评论、借书还书、在线支付）

基于Java+SpringBoot+Vue的图书借还小程序的设计与实现（亮点：多角色、点赞评论、借书还书、在线支付）

图书借还管理小程序一、前言二、我的优势2.1 自己的网站2.2 自己的小程序（小蔡coding）2.3 有保障的售后2.4 福利三、开发环境与技术3.1 MySQL数据库3.2 Vue前端技术3.3 Spring Boot框架3.4 微信小程序四、功能设计4.1 主要功能描述五、系统实现5.1 小…

阅读更多...

Linux安全加固：保护你的服务器

Linux安全加固：保护你的服务器

🌷🍁 博主猫头虎（🐅🐾）带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

阅读更多...

【深度学习实验】线性模型（三）：使用Pytorch实现简单线性模型：搭建、构造损失函数、计算损失值

【深度学习实验】线性模型（三）：使用Pytorch实现简单线性模型：搭建、构造损失函数、计算损失值

目录一、实验介绍二、实验环境 1. 配置虚拟环境 2. 库版本介绍三、实验内容 0. 导入库 1. 定义线性模型linear_model 2. 定义损失函数loss_function 3. 定义数据 4. 调用模型 5. 完整代码一、实验介绍使用Pytorch实现线性模型搭建构造损失函数计算损失值二、…

阅读更多...

TensorFlow与pytorch特定版本虚拟环境的安装

TensorFlow与pytorch特定版本虚拟环境的安装

TensorFlow与Python的版本对应，注意，一定要选择对应的版本，否则会让你非常痛苦，折腾很久搞不清楚原因。建议使用国内镜像源安装没有GPU后缀的就表示是CPU版本的，不加版本就是最新 pip install tensorflow -i https:…

阅读更多...

Learn Prompt-人工智能基础

Learn Prompt-人工智能基础

什么是人工智能？很多人能举出很多例子说这就是人工智能，但是让我们给它定义一个概念大家又觉得很难描述的清楚。实际上，人工智能并不是计算机科学领域专属的概念，在其他学科包括神经科学、心理学、哲学等也有人工智能的概念以及相…

阅读更多...

Vue3+ElementUI使用

<!DOCTYPE html> <html> <head><meta charset"UTF-8"><meta name"viewport" content"initial-scale1.0,maximum-scale1.0,minimum-scale1.0,user-scalable0, widthdevice-width"/><lin…

阅读更多...

《C和指针》笔记24: 指针和间接访问

《C和指针》笔记24: 指针和间接访问

本文主要讲指针和间接访问，标题对应《C和指针对应的章节》，引用的地方是自己写的一些注释、理解和总结。指针、间接访问和左值先回顾一下左值和右值左值代表着一个位置。右值代表着一个值。赋值等号左边是个左值，赋值等号右边是一个右值…

阅读更多...

Vue入门简介（带你打开Vue的大门）

Vue入门简介（带你打开Vue的大门）

目录前言一、Vue简介 1. 什么是Vue 2. Vue的应用场景 3. Vue的作用（重要性） 4. 什么是MVVM模式 5. 开源库网址二、Vue入门使用 1. 基础使用步骤 1.1 引入Vue.js 1.2 创建Vue实例 1.3 编写Vue模板 1.4 数据绑定与指令 1.5 调用Vue方法和…

阅读更多...

flutter聊天界面-TextField输入框buildTextSpan实现@功能展示高亮功能

flutter聊天界面-TextField输入框buildTextSpan实现@功能展示高亮功能

flutter聊天界面-TextField输入框buildTextSpan实现功能展示高亮功能最近有位朋友讨论的时候，提到了输入框的高亮展示。在flutter TextField中需要插入特殊样式的标签，比如：“请张三回答一下”，这一串字符在TextField中输入&a…

阅读更多...

最新文章

推荐文章