论文阅读——Detection Hub（cvpr2023）

论文阅读——Detection Hub（cvpr2023）

news/2024/12/23 23:19:13/文章来源:https://blog.csdn.net/weixin_43575791/article/details/134291693

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

一、要解决的问题

大规模数据集可以提高模型性能，但是当训练多类别单一模型时，大规模数据集不能用在目标检测任务上，因为两个困难：类别和框标注不一致。就是说，目标检测数据集，没有统一的大规模数据，一来即使类别相似概念每个数据集标注的类别结果可能差别很大，二来每个目标检测数据集只标注了某几个特定的少数的类别，其他的都当成背景了，比如，两个数据集都包含汽车和行人，但是第一个数据集只标注了汽车，那么行人就当成背景了，同理第二个数据集只标注了行人，汽车当背景，这就使得不能在一个模型上同时训练行人和汽车。

本文通过在每个数据集的类别的语言嵌入上调整对象查询解决这个问题。

二、方法

作者设计了一个检测hub，根据不同数据集的分布，动态调整在类别嵌入向量的查询。以前的方法是为所有数据集学习一个联合向量，本文的自适应方法使用文本向量作为类别向量的语义中心，学习不同数据集具体某个类别对这个中心的语义偏差，通过这个方法来解决标注差别。

1、A Naïve Attempt with Language Embedding

首先简单粗暴的把目标类别的名字用语言向量代替。给一张图片N个物体，把所有类别concat，组成prompt：，然后把这个prompt转换成固定长度的语言向量，把这个向量作为初始查询输入到Sparse R-CNN。这个方法对性能有伤害。

2、Adapting Queries on Language Embedding

只是简单的把类别统一，不能解决标注不连续的问题。所以，作者提出了自适应查询的方法。

1）Detection Hub

首先设计了一个Detection Hub，动态的将查询适应到不同数据集的类别向量上。

初始查询Q，几个数据集向量E，希望Detection Hub能使Q和E交互，从而可以一起训练。

意思应该是，先初始化一个查询Q，然后有一个数据集向量集合E，然后通过交叉注意力，计算给的这个Q和哪个数据集label比较近，输出一个适应过的向量。

2）Query Adaption

使用线性层产生动态卷积核

3、Unified Multi-dataset Training

语言向量送入bert得到语言特征，再用一个线性层把目标物体特征映射到和语言特征一样的同一个视觉语言空间，然后点乘计算相似度。即把分类问题作为单词-区域对齐问题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/185646.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

latex cite命令、款式

latex cite命令、款式

UTS SEDE 的 latex 模板 [1,2] 用 biblatex，默认用的引用格式是 ieee。然而 Research Foundation 的 literature review 这个作业要用 APA 7，想在保留 biblatex 的情况下区分有括号和无括号两种引用格式，即 [3] 中 \citet、\citep 的分别。 …

阅读更多...

基于selenium的pyse自动化测试框架

基于selenium的pyse自动化测试框架

介绍： pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点： 默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css&#xff09…

阅读更多...

Next.js 项目——从入门到入门（Eslint+Prettier）

Next.js 项目——从入门到入门（Eslint+Prettier）

Next.js官方文档地址什么是 Next.js 这是一个用于生产环境的 React 框架。 Next.js 为您提供生产环境所需的所有功能以及最佳的开发体验：包括静态及服务器端融合渲染、支持 TypeScript、智能化打包、路由预取等功能，无需任何配置。功能&#xff…

阅读更多...

mac 安装 selenium + chrome driver

mac 安装 selenium + chrome driver

前言使用 selenium 模拟浏览器渲染数据，需要依赖各浏览器的驱动才能完成，因此需要单独安装chrome driver 查看本地 chrome 浏览器的版本可以看到我这里已经是 arm 架构下最新的版本了下载对应的 chrome driver 访问下面的地址： Chrome…

阅读更多...

C++ Concurrency in Action 2nd Edition

C++ Concurrency in Action 2nd Edition

《C Concurrency in Action - SECOND EDITION》的中文翻译-面圈网 (mianshigee.com) C/C 学习教程源码-C/C源码推荐-面试哥 (mianshigee.com) 作者正是为C11标准引入线程库的C标准委员会成员本人！并且本书作者还编写了众多构成C标准的多线程和并发相关的提案、制定…

阅读更多...

RHCE8 资料整理（五）

RHCE8 资料整理（五）

RHCE8 资料整理第五篇系统管理第18章进程管理18.1 进程介绍18.2 查看进程18.3 向进程发送信号18.4 进程优先级第19章日志19.1 rsyslog的配置19.2 查看日志第20章网络时间服务器20.1 时间同步必要性20.2 配置时间服务器20.3 配置客户端第21章计划任务21.1 at21.2 cront…

阅读更多...

VSCode修改主题为Eclipse 绿色护眼模式

VSCode修改主题为Eclipse 绿色护眼模式

前言从参加开发以来，一直使用eclipse进行开发，基本官方出新版本，我都会更新。后来出来很多其他的IDE工具，我也尝试了，但他们的主题都把我劝退了，黑色主题是谁想出来？😂 字体小的时…

阅读更多...

2023年眼镜行业分析（京东眼镜销量数据分析）：市场规模同比增长26%，消费需求持续释放

2023年眼镜行业分析（京东眼镜销量数据分析）：市场规模同比增长26%，消费需求持续释放

随着我国经济的不断发展，电子产品不断普及，低龄及老龄人口的用眼场景不断增多，不同年龄阶段的人群有不同的视力问题，因此，视力问题人口基数也随之不断加大，由此佩戴眼镜的人群也不断增多。同时&#xff0c…

阅读更多...

华为eNSP实验-三层交换机的不同网段通信（通过OSPF路由方式）

华为eNSP实验-三层交换机的不同网段通信（通过OSPF路由方式）

1.拓扑图 2.过程如下 2.1 首先PC1和PC2配置好IP地址 2.2 在SW1上配置虚拟网关及VLAN <Huawei>system-view [Huawei]sysname SW1 [SW1]undo info-center enable [SW1] [SW1]vlan batch 10 20 [SW1]interface GigabitEthernet 0/0/1 [SW1-GigabitEthernet0/0/1]port li…

阅读更多...

Ubuntu22.04配置Go环境

Ubuntu22.04配置Go环境

Ubuntu上配置Go环境biCentOS简单多了，有两种方案，一种直接使用apt进行安装，一种自己从官网下载安装包进行安装。 1、使用apt直接安装更新apt安装包，常规操作 apt update 然后看看apt自带的Go版本是多少 apt list golang 是1…

阅读更多...

Git 入门使用

Git 入门使用

一、Git 入门 1.1 Git简介 Git是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。Git是由Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。 Git是目前世界上最先进的分布式版本控制系统，没有之一&a…

阅读更多...

【自然语言处理】基于python的问答系统实现

【自然语言处理】基于python的问答系统实现

一，文件准备该问答系统是基于已知的问题和其一一对应的答案进行实现的。首先需要准备两个文本文件，分别命名为“question.txt”和“answer.txt”，分别是问题文件和答案文件，每一行是一个问题以及对应的答案。问题文件: 中国的首…

阅读更多...

成都3瓜成都渣女1+2，成都75页ppt下载查看攻略分享！成都三瓜ppt事件分享

成都3瓜成都渣女1+2，成都75页ppt下载查看攻略分享！成都三瓜ppt事件分享

阅读更多...

vue前端实现多个url下载并合并为zip文件

vue前端实现多个url下载并合并为zip文件

一、安装 npm install jszip npm install file-saver 二、引入 import axios from axios import JSZip from "jszip"; import FileSaver from "file-saver"; 三、核心代码 videoData:[/video/26519f026fc012521605563015227403.mp4,/video/f7b9cdae14…

阅读更多...

运营商大数据精准获客：我们提供精准客源渠道的最大资源体？

运营商大数据精准获客：我们提供精准客源渠道的最大资源体？

运营商大数据精准营销谈起精准获客，竞争对手永远是为我们提供精准客源渠道的最大资源体！ 最新的获客方式，就是从竞争对手的手中把他们的精准客户资源变为自己的。今年最火的运营商大数据精准营销是拒绝传统营销方式的烧钱推广&#xff0…

阅读更多...

无人机航迹规划：七种智能优化算法（DBO、LO、SWO、COA、LSO、KOA、GRO）求解无人机路径规划--提供MATLAB代码

无人机航迹规划：七种智能优化算法（DBO、LO、SWO、COA、LSO、KOA、GRO）求解无人机路径规划--提供MATLAB代码

一、七种算法（DBO、LO、SWO、COA、LSO、KOA、GRO）简介 1、蜣螂优化算法DBO 蜣螂优化算法（Dung beetle optimizer，DBO）由Jiankai Xue和Bo Shen于2022年提出，该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁…

阅读更多...

【STM32】TIM2的PWM：脉冲宽度调制

【STM32】TIM2的PWM：脉冲宽度调制

PWM是一种周期固定，脉宽可调整的输出波形。 0.通用寄存器输出 1.捕获/比较通道1的主电路--中间部分 2.捕获/比较通道的输出部分--输出 3.通用定时器输出PWM原理 PWM波周期或者频率由ARR（就是要进递增/递减的值）决定，PWM波占空比由…

阅读更多...

力扣每日一题 ---- 2906. 构造乘积矩阵

力扣每日一题 ---- 2906. 构造乘积矩阵

这题很简单(一下就能想到是前缀和的提米)，但是在处理12345上面需要仔细一点，本来我最开始想到的时候全部累乘在除掉当前数，但是这样就没有把12345考虑进去，如果他本身是12345的话，那么除他以外的乘积并不一定是0&#…

阅读更多...

前端缓存机制——强缓存、弱缓存、启发式缓存

前端缓存机制——强缓存、弱缓存、启发式缓存

强缓存和弱缓存的主要区别是主要区别在于缓存头携带的信息不同。强缓存： 浏览器发起请求，查询浏览器的本地缓存，如果找到资源，则直接在浏览器中使用该资源。若是未找到，或者资源已过期，则浏览器缓存返回未…

阅读更多...

Pytest插件

Pytest插件

官方文档：API Reference — pytest documentation BaseReport 定义Case结果输出 >>> from _pytest.reports import TestReport >>> test TestReport(1,1,1,pass,,running) >>> print(dir(test)) [__annotations__, __class__, __delatt…

阅读更多...

最新文章

推荐文章