【文献阅读】2024 DAVE 基于密度检测

摘要、图、模型架构

提出什么模块 解决什么问题

摘要

Low-shot counters estimate the number of objects corresponding to a selected category, based on only few or no exemplars annotated in the image. The current state-ofthe-art estimates the total counts as the sum over the object location density map, but does not provide individual object locations and sizes, which are crucial for many applications. This is addressed by detection-based counters, which, however fall behind in the total count accuracy. Furthermore, both approaches tend to overestimate the counts in the presence of other object classes due to many false positives. We propose DAVE, a low-shot counter based on a detect-and-verify paradigm, that avoids the aforementioned issues by first generating a high-recall detection set and then verifying the detections to identify and remove the outliers. This jointly increases the recall and precision, leading to accurate counts. DAVE outperforms the top densitybased counters by ∼20% in the total count MAE, it outperforms the most recent detection-based counter by ∼20% in detection quality and sets a new state-of-the-art in zero-shot as well as text-prompt-based counting.

低样本计数器通过基于图像中仅有的少量或没有标注的范例来估计所选类别的对象数量。当前最先进的方法将对象位置密度图的总和作为总计数,但不提供单个对象的位置和大小,而这些对于许多应用至关重要。检测基计数器解决了这一问题,但在总计数精度上表现不佳。此外,这两种方法在存在其他对象类别时往往会因大量误报而高估计数。我们提出了 DAVE,这是一种基于检测与验证范式的低样本计数器,通过首先生成高召回率的检测集,然后验证检测结果以识别并移除异常值,避免了上述问题。这种方法共同提高了召回率和精度,从而实现了精确的计数。DAVE 在总计数平均绝对误差(MAE)方面比顶级基于密度的计数器表现提高约20%,在检测质量上比最新的检测基计数器提高约20%,并在零样本和基于文本提示的计数中创下新的最先进水平。

图1

图 1. 尽管考虑了范例(黄色框),但最先进的方法(例如 CounTR [16])仍容易在错误对象上产生错误激活,导致计数不准确。DAVE 通过检测所有候选对象(红色和绿色框),验证它们,移除异常值(红色框),并修正最终的密度图,从而共同提高了检测和计数估计的精度。

贡献

The primary contribution of the paper is the detect-andverify paradigm for low-shot counting that simultaneously achieves high recall and precision. The proposed architecture is the first to extend to all low-shot counting scenarios. DAVE uniquely merges the benefits of both density and detection-based counting and is the first zero-shot-capable counter with detection output. DAVE outperforms all stateof-the-art density-based counters on the challenging benchmark [26], including the longstanding winner [6], achieving a relative 20% MAE and 43% RMSE total-count error reductions. It also outperforms all state-of-the-art detectionbased counters on the recent benchmark FSCD147 [22] by ∼20% in detection metrics, as well as in the total count estimation by 38% MAE. Furthermore, it sets a new state-ofthe-art in text-prompt-based counting. The zero-shot DAVE variant outperforms all zero-shot density-based counters and delivers detection accuracy on-par with the most recent few-shot counters. DAVE thus simultaneously outperforms both density-based and detection-based counters in a range of counting setups.

本文的主要贡献是为低样本计数提出了一种检测和验证范式,该范式同时实现了高召回率和精确度。所提出的架构是第一个扩展到所有低样本计数场景的架构。DAVE(Detect-and-Verify)独特地融合了基于密度和基于检测计数的双重优势,并且是第一个具有检测输出能力的零样本计数器。在具有挑战性的基准测试[26]中,DAVE超越了所有现有的基于密度的计数器,包括长期胜出者[6],实现了相对20%的平均绝对误差(MAE)和43%的均方根误差(RMSE)总计数误差降低。它还在最近的基准测试FSCD147[22]上超越了所有基于检测的最新计数器,检测指标提高了约20%,并且在总计数估计上通过38%的MAE提高了。此外,它在基于文本提示的计数方面树立了新的最先进水平。零样本DAVE变体超越了所有零样本基于密度的计数器,并提供了与最近少样本计数器相当的检测精度。因此,DAVE同时在一系列计数设置中超越了基于密度和基于检测的计数器。

图2

图2. 提出的DAVE架构由两个阶段组成,(i) 检测和(ii) 验证,并输出检测到的对象以及改进的位置密度图。NMS表示非极大值抑制,FFM是特征融合模块,Ω是边界框回归头,φ是验证特征提取网络 


 

  1. DAVE架构:DAVE是一个用于少样本计数和检测的架构,它包括两个主要的处理阶段。

  2. 检测阶段:在第一阶段,DAVE的目标是识别图像中的所有对象,可能包括一些误报。

  3. 验证阶段:在第二阶段,DAVE分析检测到的候选区域,以识别并排除异常值,从而提高检测的准确性。

  4. 输出:DAVE最终输出检测到的对象和改进的位置密度图。这些输出可以用于进一步的分析或作为计数任务的结果。

  5. 非极大值抑制(NMS):这是一种常用于目标检测的技术,用于去除重叠的候选区域,只保留最佳的候选框。

  6. 特征融合模块(FFM):这个模块负责融合不同来源的特征,以增强特征的表达能力。

  7. 边界框回归头(Ω):这个组件负责调整候选区域的位置和大小,以更准确地匹配实际对象的边界框。

  8. 验证特征提取网络(φ):这是用于验证阶段的网络,用于从候选区域提取特征,以便进行深入分析和验证。

  9. 改进的位置密度图:DAVE通过融合检测和验证阶段的信息,生成一个改进的位置密度图,这有助于更准确地估计对象的数量和位置。

DAVE架构通过这两个阶段的协同工作,旨在实现高召回率和高精确度的对象检测和计数,特别是在样本数量有限的情况下。


 

这张图描述的是一个名为DAVE(Detect-and-Verify)的少样本计数和检测方法的架构,它包含两个主要阶段:检测阶段和验证阶段。以下是对图中各个组件和流程的详细讲解:

  1. 检测阶段(Detection stage)

    • 这一阶段的目标是识别图像中所有可能的对象,包括潜在的误报(即错误分类的对象)。
    • 特征池化(Feature pooling):首先,模型通过特征池化来提取图像的特征表示。
    • 余弦相似度(Cosine similarity):使用余弦相似度来衡量特征向量之间的相似性,这有助于识别图像中的对象。
    • 非极大值抑制(NMS, Non-maximum Suppression):这是一种常用于目标检测的技术,用于去除重叠的候选区域,只保留最佳的候选框。
  2. 特征融合模块(FFM, Feature Fusion Module)

    • 这个模块用于融合不同来源的特征,增强特征的表达能力,为后续的检测和验证提供更丰富的信息。
  3. 上采样(Upsample)

    • 将特征图上采样到更高的分辨率,这有助于在更细粒度上进行对象检测。
  4. 验证阶段(Verification stage)

    • 在检测到候选对象后,验证阶段的目的是进一步分析这些候选区域,以识别和排除异常值,从而提高检测的准确性。
  5. 输出检测(Output detections)

    • 这个阶段输出最终的检测结果,即图像中对象的边界框。
  6. 输出密度(Output density)

    • 除了边界框,模型还输出一个改进的位置密度图,这个密度图表示了对象在图像中的分布密度。
  7. DAVE输出(DAVE outputs)

    • DAVE最终输出检测到的对象(BP, 表示边界框集合)和通过验证阶段改进的密度图。
  8. 检测掩码(Detection mask)

    • 这是一个辅助的可视化工具,显示了模型检测到的对象区域。
  9. 亲和矩阵(Affinity matrix)

    • 在验证阶段,亲和矩阵用于量化候选区域之间的相似性或关联性,有助于识别和排除异常值。
  10. 聚类(Clustering)

    • 聚类技术用于将相似的候选区域分组,以进一步精细化检测结果。
  11. 边界框回归头(2, Bounding Box Regression Head)

    • 这个组件负责调整候选区域的位置和大小,以更准确地匹配实际对象的边界框。
  12. 验证特征提取网络(Φ, Verification Feature Extraction Network)

    • Φ表示用于验证阶段的特征提取网络,它从候选区域提取特征,以便进行深入分析。

图中的数字“17”和“16.6”分别表示检测阶段的边界框数量和验证阶段后的密度估计计数,显示了DAVE方法在检测和计数方面的性能。

总结来说,DAVE架构通过这两个阶段的协同工作,旨在实现高召回率和高精确度的对象检测和计数,特别是在样本数量有限的情况下。


图3

3. Counting by detection and verification

 3.1. Detection stage

 

 

3.2. Verification stage

3.3. Zero-shot and prompt-based adaptation

3.4. Training

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/403219.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Harmony OS 4.0】待办列表案例

src/main/ets/example1/Models.ets // 定义class类数据模型 export class TaskDataModel {// private 私有属性&#xff0c;在类对象外不允许随意更改数据&#xff0c;必须本地初始化。private tasks: Array<string> [早起晨练, 准备早餐, 阅读名著, 学习ArkTs, 玩游戏…

电子电气架构 --- 车载以太网

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

Python 全栈系列262 使用sqlalchemy(clickhouse)

说明 再补充一篇。之前连不上的原因也挺搞笑&#xff0c;大概是deepseek把我带偏了&#xff0c; 应该是 pip3 install clickhouse-sqlalchemy -i https://mirrors.aliyun.com/pypi/simple/ 但是它教我 pip3 install sqlalchemy-clickhouse -i https://mirrors.aliyun.com/py…

【实用工具】使用Chrome插件搭建第二大脑!SuperMemory大语言模型登场,开源、免费、保存你需要的所有网站!——含入门安装教程

文章目录 项目简介项目搭建主要功能How do I use this?本地部署 项目简介 最近&#xff0c;有一款Github项目十分火爆&#xff0c;它专注于用超级内存打造自己的第二大脑。它是书签的 ChatGPT&#xff0c;基于Chrome 浏览器扩展导入推文或保存网站和内容&#xff0c;你可以访…

【计算机人接私活】手把手教你上手挖到第一个漏洞,从底薪3k到月入过万,只有一步之遥!

计算机人想接靠谱的私活&#xff1f;看这篇&#xff01; 暑假想做兼职赚生活费&#xff1f;看这篇&#xff01; 挖漏洞找不到门路&#xff1f;看这篇&#xff01; 挖漏洞必备工具 Up入行网安多年&#xff0c;一直在探索副业项目。 从最初的月薪5k&#xff0c;到现在一个漏…

基于javaEE的校园二手书交易平台的设计与实现

TOC springboot287基于javaEE的校园二手书交易平台的设计与实现 第1章 绪论 1.1 研究背景 互联网概念的产生到如今的蓬勃发展&#xff0c;用了短短的几十年时间就风靡全球&#xff0c;使得全球各个行业都进行了互联网的改造升级&#xff0c;标志着互联网浪潮的来临。在这个…

EWM 批次管理 / Batch Management

目录 1 简介 2 业务数据 2.1 基于 PO&#xff0c;创建 ERP LE - Delivery 内向交货单&#xff0c;同时同步到 EWM 交货单 2.2 在 EWM 内向交货单&#xff0c;创建批次。EWM 批次创建的前提条件来自于物料主数据批次分类&#xff08;023&#xff09;决定的。SAP 提供的标准条…

【数据结构】二叉树(三)精选Oj题

本篇已经是二叉树第三篇啦&#xff0c;下面讲解相关面试题&#xff0c;写作不易&#xff0c;求路过的朋友给个点赞与收藏呀~ 目录 1、相同的树 2、另一颗树的子树 3、翻转二叉树 4、对称二叉树 5、平衡二叉树 6、构建二叉树 7、二叉树的最近公共祖先 孩子双亲解法 二叉…

大端存储与小端存储

大端存储与小端存储 什么大端存储什么是小端存储 大端存储&#xff08;Big-endian&#xff09;和小端存储&#xff08;Little-endian&#xff09;是计算机科学中数据在内存中存储的两种不同方式&#xff0c;主要涉及多字节数据类型&#xff08;如整数、浮点数&#xff09;的字…

vue3 组合式 API:setup()

查看vue3官网介绍&#xff1a;组合式 API&#xff1a;setup() 在 Vue 3 中&#xff0c;组合式 API 的 setup() 函数是一个非常重要的特性&#xff0c;它提供了一种更灵活和可维护的方式来组织组件的逻辑。 基本概念 setup() 函数是在组件实例创建之前执行的&#xff0c;它用于…

零基础STM32单片机编程入门(三十八) 多传感器模块之跌倒检测实战源码

文章目录 一.概要二.实验原理三.实验控制流程四.STM32单片机跌倒监测实验(MPU6050直流有刷电机蜂鸣器)五.CubeMX工程源代码下载六.实验效果视频七.小结 一.概要 据统计每年约有 300 万老年人因跌倒受伤而在急诊室接受治疗&#xff0c;每五次跌倒就有一次会造成伤害&#xff0c…

网络如何发送一个数据包

网络如何发送一个数据包 网络消息发送就是点一点屏幕。 骚瑞&#xff0c;这一点都不好笑。&#xff08;小品就是我的本质惹&#xff09; 之前我就是会被这个问题搞的不安宁。是怎么知道对方的IP地址的呢&#xff1f;怎么知道对方的MAC呢&#xff1f;世界上计算机有那么多&…

阿里Qwen2开源大模型本地部署及调试全攻略

阿里Qwen2开源大模型本地部署及调试全攻略 #Qwen2系列大模型性能卓越&#xff0c;超越业界知名模型。开源后受到AI开发者关注&#xff0c;支持多种语言&#xff0c;提升多语言理解。在预训练和微调上优化&#xff0c;实现智能水平提升。Qwen2系列模型在各项能力上均领先&#…

python 获取pdf文件中的超链接

pip install pymupdf pip install fitzimport fitz # PyMuPDFdef get_pdf_links(pdf_path):# 打开PDF文件document fitz.open(pdf_path)links []for page_num in range(len(document)):page document[page_num]# 获取当前页面的链接for link in page.get_links():links.app…

WPF自定义控件

控件模板 顾名思义就是在原有的控件上进行模版修改成自己需要的样式 把ProgressBar修改为一个水液面的进度条 <Window x:Class"XH.CustomLesson.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://s…

2024年第三届全国大学生数据分析实践赛A 题

↑ ↑ ↑ ↑ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑ ↑ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ ↑​​​​​​​ …

【Java学习】方法的引用

所属专栏&#xff1a;Java学习 &#x1f341;1. 方法引用 方法的引用&#xff1a;把已经存在的方法拿来使用&#xff0c;当作函数式接口中抽象方法的方法体 " :: "是方法引用符 方法引用时需要注意&#xff1a; 1. 需要有函数式接口 2. 被引用的方法必须存在 3. …

浅谈SIMD、向量化处理及其在StarRocks中的应用

前言 单指令流多数据流(SIMD)及其衍生出来的向量化处理技术已经有了相当的历史&#xff0c;并且也是高性能数据库、计算引擎、多媒体库等组件的标配利器。笔者在两年多前曾经做过一次有关该主题的内部Geek分享&#xff0c;但可能是由于这个topic离实际研发场景比较远&#xff0…

3:html(CSS):基础语法3

3.1网页布局与id 3.1.1网页布局 在这里将使用<div>分成一个一个的块&#xff0c;然后进行CSS的美化。这里要说一下html是一个前端的代码&#xff0c;但是它写出来的东西单调缺少美感&#xff0c;CSS就是进行美化的&#xff0c;这里我们使用类的概念来美化我们的网站。 …

X-Recon:一款针对Web安全的XSS安全扫描检测工具

关于X-Recon X-Recon是一款功能强大的Web安全扫描与检测工具&#xff0c;该工具能够帮助广大研究人员识别网页端输入数据&#xff0c;并执行XSS扫描任务。 功能介绍 1、子域名发现&#xff1a;检索目标网站的相关子域名并将其整合到白名单中。这些子域名可在抓取过程中使用&am…