论文阅读——What Can Human Sketches Do for Object Detection？(cvpr2023)

论文阅读——What Can Human Sketches Do for Object Detection？(cvpr2023)

news/2024/11/26 11:42:41/文章来源:https://blog.csdn.net/weixin_43575791/article/details/134231949

论文：https://openaccess.thecvf.com/content/CVPR2023/papers/Chowdhury_What_Can_Human_Sketches_Do_for_Object_Detection_CVPR_2023_paper.pdf

代码：What Can Human Sketches Do for Object Detection? (pinakinathc.me)

一、

Baseline SBIR Framework：给一组图片：轮廓和图片，学习到对应的两个特征，然后使用余弦距离计算triplet loss。

本文使用hard-triplet loss,再加上一个分类损失

二、

使用RPN或者selective search生成框和对应的特征，输入到分类头检测头得到两个分数。通过这两个来判断图片中是否出现某个类别。分类头分数分别判断每个区域属于某个类别的概率，检测头分数判断这个patch对属于被分到的这个类别的贡献度。

labels:

,

三、

下面是微调框：

因为没有坐标标注，所以使用了一个迭代微调分类器对每个ROI预测一个精细的类别分数，标签从第k-1步迭代获得：

1、计算每个类别分数最高的patch

2、和这个patch重叠度高的(iou>0.5)patch都是一个类别

3、如果某个区域和任何一个分数高的patch重合度都不高，就是背景。

4、如果某个类别没出现在图片中，也是0

损失函数：

四、

然后检测一般是预先固定多少类别，作者克服了这个限制

每个头原本预测分数，改为计算嵌入向量

用预训练的Fs编码patch得到，

计算分数：

多加了一个来自原始图片的监督Fp，

最终损失为：

五、

泛化到开放词汇检测：

轮廓向量集合：

图片向量集合：

映射到ViT第一层，以诱导CLIP学习下游轮廓/照片分布

ViT权重冻结，CLIP学习到知识被蒸馏为prompts的权重。

最后新的轮廓和图片encoder为使用sketch prompt和图片prompt的CLIP’s image encoder，，

只训练Vs和Vp

学习跨类别的FGSBIR：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/185925.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【Qt之QAssociativeIterable】使用

【Qt之QAssociativeIterable】使用

介绍 QAssociativeIterable类是QVariant中一个关联式容器的可迭代接口。这个类允许多种访问在QVariant中保存的关联式容器元素的方法。如果一个QVariant可以转换为QVariantHash或QVariantMap，那么QAssociativeIterable的实例可以从中提取出来。 QHash<int, QSt…

阅读更多...

UPLOAD-LABS1

UPLOAD-LABS1

less1 (js验证) 我们上传PHP的发现不可以，只能是jpg，png，gif（白名单限制了） 我们可以直接去修改限制在查看器中看到使用了onsubmit这个函数，触发了鼠标的单击事件，在表单提交后马上调用了re…

阅读更多...

css排版—— 一篇优雅的文章（中英文） vs 聊天框的特别排版

css排版—— 一篇优雅的文章（中英文） vs 聊天框的特别排版

文章 <div class"contentBox"><p>这是一篇范文——仅供测试使用</p><p>With the coming of national day, I have a one week holiday. I reallyexpect to it, because it want to have a short trip during these days. Iwill travel to Ji…

阅读更多...

osgEarth之添加shp

osgEarth之添加shp

目录效果代码代码分析加载模式效果代码 #include "stdafx.h" #include <osg/Notify> #include <osgGA/StateSetManipulator> #include <osgViewer/Viewer> #include <osgViewer/ViewerEventHandlers>#include <osgEarth/MapNo…

阅读更多...

蓝桥杯练习

蓝桥杯练习

即约分数题目思路遍历所有的x，y，判断x/y是不是即越约分数。代码 #include <iostream> using namespace std; int gcd(int x,int y) {int r;while(y!0){rx%y;xy;yr;}return x; } int main() {// 请在此输入您的代码int sum4039;//1/y和x/1都…

阅读更多...

火爆全网！用 Pyecharts 就能做出来“迁徙图“和“轮播图“

火爆全网！用 Pyecharts 就能做出来“迁徙图“和“轮播图“

1.pyecharts知识点回顾 1）知识回顾前面我们已经讲述了，如何使用pyecharts进行图形的绘制，一共涉及到如下四步。我们今天就是按照下面这几步来进行迁徙图和轮播图的绘制。 ① 选择图表类型； ② 声明图形类并添加数据&#xff1…

阅读更多...

学术论文的实证数据来源

学术论文的实证数据来源

一、引言在当今的学术研究中，数据是至关重要的。无论是自然科学、社会科学还是人文科学，都需要借助数据来支撑和证明其研究假设和理论。然而，数据的来源却是多种多样的，而且不同的学科领域也有其特定的数据来源。本文旨在探讨论文…

阅读更多...

开放智慧，助力学习——电大搜题，打开学无止境的新篇章

开放智慧，助力学习——电大搜题，打开学无止境的新篇章

随着信息技术的迅猛发展，学习已经不再受时间和空间的限制。电大搜题微信公众号为广播电视大学和河南开放大学的学子们带来了便利和智慧，让学习变得更加高效和愉快。电大搜题微信公众号作为一款专为电大学生而设计的学习助手，是学习中不可或…

阅读更多...

【2】Spring Boot 3 项目搭建

【2】Spring Boot 3 项目搭建

目录【2】Spring Boot 3 初始项目搭建项目生成1. 使用IDEA商业版创建2. 使用官方start脚手架创建配置与启动Git版本控制个人主页: 【⭐️个人主页】需要您的【💖 点赞关注】支持 💯 【2】Spring Boot 3 初始项目搭建项目生成 1. 使用IDEA商业版创…

阅读更多...

ppt聚光灯效果

ppt聚光灯效果

1.放入三张图片内容或其他 2.全选复制成图片 3.设置黑色矩形，透明度30% 4.粘贴复制后的图片，制定图层 5.插入椭圆，先选中矩形，再选中椭圆，点击绘图工具，选择相交即可（关键）

阅读更多...

全景房屋装修vr可视化编辑软件功能及特点

全景房屋装修vr可视化编辑软件功能及特点

VR样板间、VR景观、VR商业街，全方位展示建筑内外空间使用及功能表現，让目标客戶能够身临其境体验項目的每处细节。同时支持微信传播，线上看房，手机端VR沉浸式体验 3D互动售楼系统 3D互动售楼系统，集项目展示、智能选房…

阅读更多...

设计模式是测试模式咩？

设计模式是测试模式咩？

设计模式和测试模式概述软件的生命周期为什么要进行测试（测试的目的）？软件的设计模式1. **瀑布模型**3. 增量和迭代模型4. 敏捷模型5. 喷泉模型测试模型V模型W模型一个应用程序从出生到“死亡”会经过非常漫长的流程…… 软件的生命周期 …

阅读更多...

学习笔记4——JVM运行时数据区梳理

学习笔记4——JVM运行时数据区梳理

学习笔记系列开头惯例发布一些寻亲消息链接：https://baobeihuijia.com/bbhj/contents/3/192489.html 类装载器classLoader： 将本地的字节码文件.class 加载到内存方法区中成为元数据模板（两个class对象是否为同一个类要求：完整…

阅读更多...

单通道低压 H 桥电机驱动芯片AT9110H 兼容L9110 马达驱动芯片

单通道低压 H 桥电机驱动芯片AT9110H 兼容L9110 马达驱动芯片

H桥直流电机驱动电路是一种用于控制直流电机运转的电路，其主要特点是可以实现正反转控制，控制电机转速和方向，同时也具有过流保护功能。 H桥电路由四个功率晶体管和一些辅助电路组成，其中两个晶体管用于控制电机正转，…

阅读更多...

【MySQL】一文学会所有MySQL基础知识以及基本面试题

【MySQL】一文学会所有MySQL基础知识以及基本面试题

文章目录前言目录文章目录前言一、主流数据库以及如何登陆数据库二、常用命令使用三、SQL分类 3.1 存储引擎四、创建数据库如何设置编码等问题 4.1操纵数据库 4.2操纵表五、数据类型六、表的约束七、基本查询八、函数九、复合查询十、表的内连和外连十一、索引…

阅读更多...

基于ssm的校园办公室报修管理系统

基于ssm的校园办公室报修管理系统

基于ssm的校园办公室报修管理系统摘要基于SSM的校园办公室报修管理系统是一个现代化的、高效的报修平台，它能够帮助校园内的教职工和学生更方便、更快捷地提交和处理报修请求。该系统基于Spring、SpringMVC和MyBatis（简称SSM）开发&#xff…

阅读更多...

iOS 16.4 之后真机与模拟器无法使用Safari调试H5页面问题

iOS 16.4 之后真机与模拟器无法使用Safari调试H5页面问题

背景 iOS 16.4之后用真机调试H5时候发现，Safari中开发模块下面无法调试页面解决方案在WKWebView中设置以下代码解决 if (available(iOS 16.4, *)) {[_webView setInspectable:YES];}然后再次调试就可以了

阅读更多...

【C++类和对象中：解锁面向对象编程的奇妙世界】

【C++类和对象中：解锁面向对象编程的奇妙世界】

【本节目标】 1. 类的6个默认成员函数 2. 构造函数 3. 析构函数 4. 拷贝构造函数 5. 赋值运算符重载 6. const成员函数 7. 取地址及const取地址操作符重载 1.类的6个默认成员函数如果一个类中什么成员都没有，简称为空类。空类中真的什么都没有吗&#xf…

阅读更多...

迅为龙芯3A5000主板,支持PCIE 3.0、USB 3.0和 SATA 3.0显示接口2 路、HDMI 和1路 VGA,可直连显示器

迅为龙芯3A5000主板,支持PCIE 3.0、USB 3.0和 SATA 3.0显示接口2 路、HDMI 和1路 VGA,可直连显示器

性能强采用全国产龙芯3A5000处理器，基于龙芯自主指令系统 (LoongArch)的LA464微结构，并进一步提升频率，降低功耗，优化性能。桥片桥片采用龙芯 7A2000，支持PCIE 3.0、USB 3.0和 SATA 3.0显示接口2 路、HDMI 和1路 …

阅读更多...

Leetcode---370周赛

Leetcode---370周赛

题目列表 2923. 找到冠军 I 2924. 找到冠军 II 2925. 在树上执行操作以后得到的最大分数 2926. 平衡子序列的最大和一、找到冠军I 第一题模拟题，简单来说是看每一行(列)是否全是1，当然不包括自己比自己强的情况，需要特判代码如下 …

阅读更多...

最新文章

推荐文章