《DiffusionDet: Diffusion Model for Object Detection》ICCV2023

摘要

本文提出了一种新的框架DiffusionDet,它将目标检测任务表述为从带噪声的边界框到目标边界框的去噪扩散过程(如图一所示)。在训练阶段,目标边界框逐渐扩散到随机分布,模型学习逆转这一加噪过程。在推理阶段,模型以渐进的方式细化一组随机生成的边界框以输出结果。在标准基准测试(包括MS-COCO和LVIS)上的广泛评估表明,DiffusionDet与以前建立的检测器相比,取得了有利的性能。这项工作在目标检测中带来了两个重要的发现:首先,随机边界框虽然与预定义的锚点或学习到的查询差异很大,但也是有效的目标候选;其次,目标检测这一代表性感知任务可以通过生成方式解决。

图一:将目标检测表述为从噪声框到目标框的去噪扩散过程

拟解决的问题:DiffusionDet旨在解决传统目标检测方法中存在的问题,特别是依赖于固定的一组可学习查询(如图二(a)(b)所示)的问题。作者提出了一个问题:是否有一种更简单的方法,甚至不需要可学习查询的代理?DiffusionDet通过直接从一组随机边界框(如图二(c)所示)检测对象来回答这个问题。

图二

创新之处

  1. 去噪扩散过程:DiffusionDet首次将目标检测表述为生成式去噪过程,这是据作者所知首次将扩散模型应用于目标检测。
  2. 动态边界框:DiffusionDet利用随机边界框作为目标候选,解耦了训练和评估阶段,可以在训练时使用N_{train}个随机边界框,而在评估时使用N_{eval}个随机边界框,N_{eval}可以是任意值,不需要等于N_{train}
  3. 渐进式细化:扩散模型通过迭代细化为DiffusionDet带来了好处,可以通过调整去噪采样步骤的数量来提高检测精度或加快推理速度。

方法

2.1 架构

DiffusionDet框架包含图像编码器和目标解码器两部分。图像编码器从输入图像中提取特征表示,目标解码器接收噪声边界框作为输入并预测类别分类和框坐标。在训练阶段,通过向真实边界框添加高斯噪声来构建噪声边界框。在推理阶段,DiffusionDet通过逆转学习到的扩散过程生成边界框,该过程调整噪声先验分布以适应学习到的边界框分布。

图三:在训练期间,通过将高斯噪声添加到真实框来构建噪声框。在推理中,噪声框是从高斯分布中随机采样的。

将整个模型分为两部分,图像编码器和目标解码器,前者只运行一次,从原始输入图像x中提取深度特征表示,后者将该深度特征作为条件,而不是原始图像,逐步细化来自噪声框zt的框预测。

图像编码器。图像编码器以原始图像为输入,提取其高级特征进行以下目标解码器。我们使用卷积神经网络(如ResNet)和基于transformer的模型(如Swin)来实现DiffusionDet。特征金字塔网络用于在之后为ResNet和Swin主干生成多尺度特征图。

目标解码器。从稀疏R-CNN借用,目标解码器将一组提议框作为输入,从图像编码器生成的特征映射中裁剪RoI-特征,并将这些RoI-特征发送到检测头,得到框回归和分类结果。在之后,我们的目标解码器由 6 个级联阶段组成。我们的解码器与稀疏 R-CNN 中的解码器之间的差异是:(1)DiffusionDet 从随机框开始,而 Sparse R-CNN 在推理中使用固定的学习框集; (2) Sparse R-CNN 将提议框的输入对及其对应的提议特征作为输入,而 DiffusionDet 只需要提议框; (3) DiffusionDet 在迭代采样步骤中重用检测器头,参数在不同的步骤中共享,每个步骤通过时间步嵌入指定到扩散过程,而 Sparse R-CNN 在前向传递中仅使用一次目标解码器。

2.2 训练

在训练过程中,我们首先将ground-truth框的扩散过程构建到有噪声的框中,然后训练模型逆转这个过程。

Ground truth boxes填充。首先将一些额外的框填充到原始Ground truth框,以便所有框加起来等于固定数量的N_{train}。探索了几种填充策略,例如重复现有的地面实况框、连接随机框或图像大小框。这些策略的比较发现,连接随机框效果最好。

Box corruption。将高斯噪声添加到填充的Ground truth框框中。

训练损失。目标解码器以N_{train}损坏的框为输入,预测类别分类和框坐标的N_{train}预测。我们在 N_{train}预测集上应用集合预测损失。通过最优传输分配方法选择成本最低的前 k 个预测来为每个基本事实分配多个预测。

2.3 推理 

DiffusionDet的推理过程是一个从噪声到目标盒的去噪采样过程。从高斯分布中抽样的box开始,模型逐步改进其预测。

抽样步骤。在每个采样步骤中,将随机box或上次采样步骤的预测box送入目标解码器,以预测类别分类和box坐标。在得到当前步骤的box数后,采用DDIM估计下一步的盒数。将没有DDIM的预测框发送到下一步也是一种可选的渐进优化策略。

box更新。在每个采样步骤之后,预测框可以大致分为两种类型,期望和不期望的预测。期望的预测包含适当地位于相应对象的框,而不期望的预测则是任意分布的。直接将这些不需要的box发送到下一次采样迭代不会带来好处,因为它们的分布不是由训练中的box损坏构建的。为了使推理更好地与训练一致,我们提出了box更新策略,通过将这些不需要的box替换为随机的box来恢复这些box。具体来说,我们首先过滤掉得分低于特定阈值的不需要的框。然后,我们将剩余的box与从高斯分布中抽样的新随机box连接起来。

Once-for-all。由于随机box的设计,我们可以用任意数量的随机box和采样步数来评估DiffusionDet,而不需要等于训练阶段。相比之下,以前的方法在训练和评估过程中依赖于相同数量的处理box,并且它们的目标解码器在前传过程中只使用一次。

结论

DiffusionDet通过将目标检测视为从噪声边界框到目标边界框的去噪扩散过程,提出了一种新的检测范式。这种噪声到框的管道具有动态框和渐进式细化等吸引人的特性,使得我们可以使用相同的网络参数在不同的推理情况下获得所需的速率-精度权衡,而无需重新训练模型。在标准检测基准上的实验表明,DiffusionDet与建立的检测器相比具有有利的性能。未来的工作可能会将DiffusionDet应用于视频级任务,例如目标跟踪和动作识别,或者将DiffusionDet从封闭世界扩展到开放世界或开放词汇目标检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470439.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

词嵌入方法(Word Embedding)

词嵌入方法(Word Embedding) Word Embedding是NLP中的一种技术,通过将单词映射到一个空间向量来表示每个单词 ✨️常见的词嵌入方法: 🌟Word2Vec:由谷歌提出的方法,分为CBOW(conti…

Mit6.S081-实验环境搭建

Mit6.S081-实验环境搭建 注:大家每次做一些操作的时候觉得不太保险就先把虚拟机克隆一份 前言 qemu(quick emulator):这是一个模拟硬件环境的软件,利用它可以运行我们编译好的操作系统。 准备一个Linux系统&#xf…

qt QVideoWidget详解

1. 概述 QVideoWidget是Qt框架中用于视频播放的控件。它继承自QWidget,并提供了与QMediaPlayer等多媒体播放类集成的功能。QVideoWidget可以嵌入到Qt应用程序的用户界面中,用于显示视频内容。它支持多种视频格式,并提供了基本的视频播放控制…

10款PDF合并工具的使用体验与推荐!!!

在如今的信息洪流中,我们几乎每个人都被淹没在大量的数字文档之中。无论是学生、教师还是职场人士,我们都需要高效地管理和处理这些文档。而PDF文件,凭借其跨平台的稳定性和通用性,成了最常用的文档格式之一。我们经常需要处理、编…

【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术

学习目标 了解什么是ELMo.掌握ELMo的架构.掌握ELMo的预训练任务.了解ELMo的效果和成绩.了解ELMo的优缺点. 目录 🍔 ELMo简介 🍔 ELMo的架构 2.1 总体架构 2.2 Embedding模块 2.3 两部分的双层LSTM模块 2.4 词向量表征模块 🍔 ELMo的预…

Gurobi学术版+Anaconda安装步骤

注意:在anaconda虚拟环境中安装gurobi库是不需要在本地下载gurobi这个软件的,只需要conda install gurobi即可,或者指定版本的安装conda install -c gurobi gurobi11.0.3。 step0:安装ananconda step1:获得学术许可&a…

【C++】类与对象的基础概念

目录: 一、inline 二、类与对象基础 (一)类的定义 (二)访问限定符 (三)类域 (四)实例化概念 正文 一、inline 在C语言的学习过程中,大家肯定了解过宏这个概…

解决表格出现滚动条样式错乱问题

自定义表格出现滚动条时,会因为宽度不对等导致样式错乱; 解决思路: 监听表格数据的变化,当表格出现滚动条时,再调用更新宽度的方法updateWidth,去改变表格头部的宽度,最终保持表格头部和内容对…

天才的懈怠 : 平衡二叉树

力扣110:平衡二叉树 描述: 二叉树的每一个节点的左右子树高度差不超过1,即为平衡二叉树 递归 树:还是用递归,从最深的节点开始向上判断,保证每个节点的左右子树高度差不大于1,大于1的用 -1 做标…

使用@react-three/fiber,@mkkellogg/gaussian-splats-3d加载.splat,.ply,.ksplat文件

前言 假设您正在现有项目中集成这些包,而该项目的构建工具为 Webpack 或 Vite。同时,您对 Three.js 和 React 有一定的了解。如果您发现有任何错误或有更好的方法,请随时留言。 安装 npm install three types/three react-three/fiber rea…

MySQL:CRUD

MySQL表的增删改查(操作的是表中的记录) CRUD(增删改查) C-Create新增R-Retrieve检查,查询U-Update更新D-Delete删除 新增(Create) 语法: 单行数据全列插入 insert into 表名[字段一,字段…

DeBiFormer实战:使用DeBiFormer实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

小面馆叫号取餐流程 佳易王面馆米线店点餐叫号管理系统操作教程

一、概述 【软件资源文件下载在文章最后】 小面馆叫号取餐流程 佳易王面馆米线店点餐叫号管理系统操作教程 点餐软件以其实用的功能和简便的操作,为小型餐饮店提供了高效的点餐管理解决方案,提高了工作效率和服务质量 ‌点餐管理‌:支持电…

5G时代的关键元件:射频微波MLCCs市场前景广阔

根据QYResearch调研团队最新发布的《全球射频微波多层陶瓷电容器市场报告2023-2029》显示,预计到2029年,全球射频微波多层陶瓷电容器市场规模将攀升至12.4亿美元,其未来几年内的年复合增长率(CAGR)预计为5.1%。 以下图…

ElasticSearch学习笔记一:简单使用

一、前言 该系列的文章用于记录本人从0学习ES的过程,首先会对基本的使用进行讲解。本文默认已经安装了ES单机版本(当然后续也会有对应的笔记),且对ES已经有了相对的了解,闲话少叙,书开正文。 二、ES简介 …

FFmpeg 4.3 音视频-多路H265监控录放C++开发十三:将AVFrame转换成AVPacket。视频编码原理.编码相关api

前提: 从前面的学习我们知道 AVFrame中是最原始的 视频数据,这一节开始我们需要将这个最原始的视频数据 压缩成 AVPacket数据, 我们前面,将YUV数据或者 RGBA 数据装进入了 AVFrame里面,并且在SDL中显示。 也就是说&…

ODOO学习笔记(8):模块化架构的优势

灵活性与可定制性 业务流程适配:企业的业务流程往往因行业、规模和管理方式等因素而各不相同。Odoo的模块化架构允许企业根据自身的具体业务流程,选择和组合不同的模块。例如,一家制造企业可以启用采购、库存、生产和销售模块,并通…

28.医院管理系统(基于springboot和vue)

目录 1.系统的受众说明 2. 相关技术和开发环境 2.1 相关技术 2.1.1 Java语言 2.1.2 HTML、CSS、JavaScript 2.1.3 Redis 2.1.4 MySQL 2.1.5 SSM框架 2.1.6 Vue.js 2.1.7 SpringBoot 2.2 开发环境 3. 系统分析 3.1 可行性分析 3.1.1 经济可行性 3.1.2 技术…

实时渲染技术如何助力3D虚拟展厅?

实时渲染技术以其强大的图形处理能力和即时反馈特性,在虚拟展厅的创建和体验中发挥着举足轻重的作用。视创云展3D虚拟展厅提供全方位的VR漫游体验,实时渲染技术确保场景细腻逼真,让访客仿佛置身其中,享受沉浸式的视听享受。以下是…

金价大跌,特朗普胜选或成导火索

黄金光芒不再,美元强势崛起 上周特朗普赢得美国总统选举后,金价出现了大幅下跌。这标志着市场情绪正在发生转变,投资者开始从避险资产转向风险资产。 为何金价会下跌? 美元走强: 特朗普的胜选提振了美元,…