t-rex2开放集目标检测

论文链接:http://arxiv.org/abs/2403.14610v1

项目链接:https://github.com/IDEA-Research/T-Rex

这篇文章的工作是基于t-rex1的工作继续做的,核心亮点:

  1. 是支持图片/文本两种模态的prompt进行输入,甚至进一步利用两种模态的组合来达到检测和检索的目的,比如文本检索目标、以图搜图或者两个组合的方式
  2. 还有一个非常关键的地方,t-rex2开放了一个负样本抑制的方法,这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况

可以作为zero-shot的检测器或者一些快速数据集生成的data-engine方式

1、核心框架

text-cv的双模态通用框架还是同时对文本和图像做编码,如文中所说,text依旧使用clip做文本编码,图像上用的是deformable detr(DETR的升级版本),将单/多个图像转换为视觉embedding,然后进一步的利用了一个文本\图像对齐的模块来显示对齐,因此网络能够从文本和图像中互相学习到对方的feature,然后持续地提高相互的能力,该方法适用于4(3)种工作流:

  1. 交互式视觉prompt,类似于SAM,可以理解为框选一个目标后找到同一类目标(跨多个图像来框选也可以)
  2. 文本prompt,类似于clip或者glip/groundingdino的输入方式
  3. 混合prompt输入,结合文本和图像一起做inference

t-rex2模型框架:

如上图框架所示,一句话总结流程,分别对视觉和文本做特征提取, 视觉上结合backbone做视觉编码、输入prompt做位置编码、初始化向量concat(全局注意力+特征聚合)、交叉注意力得到最终的特征提取,然后结合DINO系系列的box预测方式得到各个roi的坐标,利用clip的方式预测出label(训练和完整的inference代码似乎没有开源出来,只能看论文上的工作去猜了,源码更新后再把本文完善下);

框架支持同时对visual和text prompts进行encoder:

对于visual prompt,对于给定的归一化的坐标或者box位置4维坐标,文中提到继承于DETR依旧使用正余弦编码将其编码为位置embedding,然后使用一个线性层将其进行变换(物理意义上可能是一次特征提取?),其中B代表box的prompt,P代表point的prompt,如下图中的1式和2式所示,进一步地,此时文中初始化了一个可学习的embedding(这里特别像DETR系列后续的工作,初始化一个embedding作为类似于anchor或者其他作用)C并广播到K维度,C`是来自其他所有视觉输入的一个聚合向量,然后将C+C`的值相加后然后与第一步提取的位置向量进行通道上的concat(我听下来理解这段是将C广播得到C`,然后将B全局提取得到B`,然后做concat,具体还得看代码理解下),paper写的太复杂了,最后使用交叉注意力后在各个FPN层的特征中得到query,从框架上可以看到这些query物理意义上应该是自注意力到各个层关注的roi部分,然后如5式做自注意力的特征提取,这样保证提取出来的query应该是结合视觉prompt得到的(在前向做inference时是不是会因为不同的输入promp导致每一次inference的特征不一样)

对于text prompt,使用clip将其进行编码,此处略过,文章也没提,有兴趣的同学直接参照clip进行理解就好了;

BOX解码器:最后就是box解码器了,参照DINO以及他们实验室的工作,将传统检测的anchor作为query初始化,然后与grounding-dino一样是直接预测出各层目标的x、y、w、h,将解码器预测出的值得到Qdec,得到最后的box坐标:

类别估计就是使用clip的方式做predict了,毕竟开集检测应该都是这个套路(晚点还得看看代码确认下)

     文中提到了对每一个视觉目标和文本目标做对齐,类似于一个相互蒸馏的过程:

训练过程(损失函数):

损失函数分为5部分,对于框,使用L1+GIOU作为损失函数,对于分类,使用clip的logits和直接提取的logits计算相似性,还有一个是align对齐,L-DINO应该是文中提及的DINO中的加入噪声训练的部分,文中这里有一个细节,就是使用DETCLIP的方式,对于图片正样本边界以外的数据,随机进行负样本采集,这应该是一种很好的负样本抑制策略

输入的处理:

如果是多个输入,则对其求均值,如果结合文本,则是(视觉+文本)/2就可以了:

2、其他细节

训练集的维护:当前各种多模态模型的关键是数据集如何从各种乱七八糟来源上获取,本文也提到了,还未看,略过

结果对标:

其他细节进一步读paper再来改正和补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/285197.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

013_Linux(上传rz,下载sz,tar,zip,unzip)

目录 一、上传、下载 1、通过鼠标操作 (1)下载 (2)上传 2、通过命令操作 rz、sz (1)下载 sz (2)上传 rz 二、压缩、解压 1、tar命令 (1)压缩 &…

使用amd架构的计算机部署其他架构的虚拟机(如:arm)

1 下载quem模拟器 https://qemu.weilnetz.de/w64/2 QEMU UEFI固件文件下载(引导文件) 推荐使用:https://releases.linaro.org/components/kernel/uefi-linaro/latest/release/qemu64/QEMU_EFI.fd3 QEMU 安装 安装完成之后,需要将安装目录添加到环境变…

vscode的一些技巧

技巧1:调试时传参数 在launch.json的configuration中"pwd"或者"program"选项之后添加如下选项: “--args”:["参数1", "参数2", ..., "参数3] 参数之间使用逗号隔开 技巧2:断点 普通断点使…

通过dbeaver链接dm8数据库

一、环境说明 windows 11 vmware 17 ubuntu 22 tt:~$ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.3 LTS Release: 22.04 Codename: jammytt:~$ docker info Client:Version: 24.0.5Context: d…

Python 全栈系列236 rabbit_agent搭建

说明 通过rabbit_agent, 以接口方式实现对队列的标准操作,将pika包在微服务内,而不必在太多地方重复的去写。至少在服务端发布消息时,不必再去考虑这些问题。 在分布式任务的情况下,客户端本身会启动一个持续监听队列的客户端服…

Java研学-SpringBoot(二)

二 Spring Boot 介绍 1 简介 Spring Boot是由Pivotal团队提供的全新框架,主要目标是简化Spring应用程序的配置和部署过程,减少开发者在项目搭建和配置上的工作量,让开发者能够更专注于业务逻辑的实现。它使用特定的方式来进行配置&#xff0…

Request请求参数----中文乱码问题

一: GET POST获取请求参数: 在处理为什么会出现中文乱码的情况之前, 首先我们要直到GET 以及 POST两种获取请求参数的不同 1>POST POST获取请求参数是通过输入流getReader来进行获取的, 通过字符输入流来获取响应的请求参数, 并且在解码的时候, 默认的情况是 ISO_885…

基于SpringBoot+Vue+Mybatis的408刷题小程序管理端

简介 原始数据:书目信息、章节信息、题目信息、系统菜单、系统角色、系统用户。 主要任务:系统主要采用spring boot作为后端框架,前端使用vueelementUI,为408刷题小程序提供一个方面的管理和维护的任务,主要功能包括…

图解Kafka架构学习笔记(三)

准备Kafka环境 这里推荐使用Docker Compose快速搭建一套本地开发环境。 以下docker-compose.yml文件用来搭建一套单节点zookeeper和单节点kafka环境,并且在8080端口提供kafka-ui管理界面。 version: 2.1services:zoo1:image: confluentinc/cp-zookeeper:7.3.2hos…

day6:STM32MP157——串口通信实验

使用的是cortex A7内核 【串口通信的工作原理】 本次实验使用的是uart4的串口,分别使用了uart4_tx和uart4_rx两个引脚。根据板子的原理图我们可以知道,他们分别对应着芯片的PG11和PB2 从引脚名字也可以知道使用了GPIO口,所以本次实验同样需…

ubuntu20.04安装 ffmpeg 开发环境

参考:参考1 一些相关软件包,已打包整理好,如下 源码包 1、安装步骤 创建安装目录 sudo mkdir -p /usr/local/ffmpeg/lib 解压源码 tar -jxf ffmpeg-4.3.2.tar.bz2 到指定ffmpeg目录进行配置 cd ffmpeg-4.3.2/ 配置:会报错很多…

Spark Streaming DStream

Spark Streaming DStream DStream 即Discretized Stream,中文叫做离散流,Spark Streaming提供的一种高级抽象,代表了一个持续不断的数据流。 DStream可以通过输入数据源来创建,比如Kafka、Flume,也可以通过对其他DS…

【JAVA】通过JAVA实现用户界面的登录

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-wyCvaz0EBNwHcwsi {font-family:"trebuchet ms",verdana,arial,sans-serif;f…

2025汤家凤考研数学视频,基础网课百度网盘课程+PDF讲义资料

2025汤家凤大神及数学全程 docs.qq.com/doc/DTmtOa0Fzc0V3WElI 复制粘贴到浏览器,可以见所有的Ke 第一轮 夯实基础 1.阅读大纲考查要求,明确每章的学习目标; 2.按节学习数学理论基础知识,吃透书中例题; 3.学习每章…

数学建模综合评价模型与决策方法

评价方法主要分为两类,其主要区别在确定权重的方法上 一类是主观赋权法,多次采取综合资讯评分确定权重,如综合指数法,模糊综合评判法,层次评判法,功效系数法等 另一类是客观赋权法,根据各指标…

ubuntu上一款好用的串口工具screen

看名字,你猜他是什么? 安装 sudo apt install screen 然后将USB串口接到虚拟机,执行dmesg命令查看串口设备名: 测试: sudo screen /dev/ttyUSB0 115200确实很简单。

机器视觉学习(六)—— 图像的颜色识别

目录 一、色彩空间 1.1 RGB色彩空间 1.2 HSV色彩空间 1.3 灰度 1.4 CMYK色彩空间 1.5 Lab色彩空间 二、色彩空间转换 三、识别颜色 3.1 识别一种特定的颜色 3.2 识别多种颜色 一、色彩空间 计算机视觉中常用的色彩空间有RGB色彩空间、HSV色彩空间、CMYK色彩空间、La…

如何设计循环队列(两种方法)

文章目录 前言一、方法一:数组法二、方法二.链表法总结 前言 前面有提到过队列的知识,这次来说一下怎么设计一个循环队列 一.循环队列(力扣) . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资…

Java Synchronized

Synchronized Synchronized 原理偏向锁轻量级锁重量级锁 Synchronized特征jdk1.8Synchronized优化了什么?Synchronized修饰范围Synchronized lock 区别 Synchronized 原理 在Java对象内存布局中,每个对象都有一个对象头,其中包含锁状态信息。…

【stable diffusion扩散模型】一篇文章讲透

目录 一、引言 二、Stable Diffusion的基本原理 1 扩散模型 2 Stable Diffusion模型架构 3 训练过程与算法细节 三、Stable Diffusion的应用领域 1 图像生成与艺术创作 2 图像补全与修复 3 其他领域 四、Stable Diffusion的优势与挑战 👉优势 &#x1f…