【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 15 日论文合集)

文章目录

  • 一、检测相关(6篇)
    • 1.1 ALWOD: Active Learning for Weakly-Supervised Object Detection
    • 1.2 mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection
    • 1.3 Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion
    • 1.4 Road Disease Detection based on Latent Domain Background Feature Separation and Suppression
    • 1.5 Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection
    • 1.6 Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection

一、检测相关(6篇)

1.1 ALWOD: Active Learning for Weakly-Supervised Object Detection

ALWOD:用于弱监督目标检测的主动学习

https://arxiv.org/abs/2309.07914

在这里插入图片描述
目标检测(OD)是一项重要的视觉任务,但由于缺乏具有精确目标定位标签的大型训练数据集,因此仍然面临挑战。在这项工作中,我们提出了ALWOD,一个新的框架,通过融合主动学习(AL)与弱和半监督对象检测范式来解决这个问题。由于AL的性能严重依赖于模型的初始化,我们提出了一种新的辅助图像生成器的策略,利用一个非常小的标记集,加上一个大的弱标记的图像集,作为一个热启动AL。然后,我们提出了一个新的AL收购功能,AL成功的另一个关键因素,利用学生-教师OD对的分歧和不确定性,有效地提出最翔实的图像注释。最后,为了完成AL循环,我们引入了一个新的标记任务委托给人类注释者,基于模型提出的检测的选择和校正,这是快速和有效的标记信息图像。我们在几个具有挑战性的基准测试中证明,ALWOD显著缩小了在少数部分标记但策略性选择的图像实例上训练的OD与依赖于完全标记数据的OD之间的差距。我们的代码可在https://github.com/seqam-lab/ALWOD上公开获取。

1.2 mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection

MEBAL2数据库和基准:基于图像的多光谱眨眼检测

https://arxiv.org/abs/2309.07880

在这里插入图片描述
这项工作介绍了一个新的多光谱数据库和新的方法眨眼检测RGB和近红外(NIR)的个人图像。我们贡献的数据集(mEBAL 2,多模式眨眼和注意力水平估计,版本2)是现有最大的眨眼数据库,代表了改进用于眨眼检测和相关应用的数据驱动多光谱方法的大好机会(例如,人脸生物特征中的注意力水平估计和呈现攻击检测)。mEBAL 2包含来自180名不同学生的21,100个图像序列(总共超过200万张标签图像),同时进行了许多不同难度的电子学习任务,或通过edX MOOC平台进行HTML初始化的真正课程。mEBAL 2使用多个传感器,包括两个近红外(NIR)和一个RGB摄像头,用于在任务执行期间捕捉面部手势,以及脑电图(EEG)波段,用于获取用户的认知活动和眨眼事件。此外,这项工作提出了卷积神经网络架构作为mEBAL 2闪烁检测的基准,性能高达97%。使用RGB光谱、NIR光谱和两者的组合来实现不同的训练方法,以增强现有眨眼检测器的性能。我们证明了在训练期间组合NIR和RGB图像提高了RGB眨眼检测器的性能(即,仅基于RGB图像的检测)。最后,所提出的眨眼检测器的泛化能力进行了验证,在更狂野和更具挑战性的环境,如HUST-LEBW数据集,以显示有用的mEBAL 2训练新一代的数据驱动的眨眼检测方法。

1.3 Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion

基于语义级共识提取和离散度的共显著目标检测

https://arxiv.org/abs/2309.07753

在这里插入图片描述
给定一组图像,共同显着对象检测(CoSOD)的目的是突出每个图像中的共同显着对象。有两个因素与此任务的成功密切相关,即共识提取和共识对每个图像的分散。大多数以前的工作表示使用本地功能的组共识,而我们使用分层的Transformer模块提取语义级别的共识。因此,它可以获得对共同对象类别的更全面的表示,并且排除来自与目标对象共享局部相似性的其他对象的干扰。此外,我们提出了一个基于变压器的分散模块,考虑到在不同的场景中的变化的共同显着的对象。它以特定于图像的方式将共识分发到图像特征图,同时充分利用组内的交互。这两个模块与ViT编码器和FPN类解码器集成,以形成端到端的可训练网络,而没有额外的分支和辅助损耗。该方法在三个常用的CoSOD数据集上进行了评估,并达到了最先进的性能。

1.4 Road Disease Detection based on Latent Domain Background Feature Separation and Suppression

基于潜在域背景特征分离和抑制的道路病害检测

https://arxiv.org/abs/2309.07616

在这里插入图片描述
道路病害检测具有挑战性,因为目标区域中道路破损所占比例小,背景多样,引入了大量的领域信息,而且病害类别具有较高的相似性,使得检测难度加大。本文提出了一种新的LDBFSS(Latent Domain Background Feature Separation and Suppression)网络,该网络能够在不需要领域监督和对比增强目标特征的情况下进行背景信息的分离和抑制,并将LDBFSS网络与YOLOv5模型相结合来增强病害特征,从而更好地检测道路病害。作为LDBFSS网络的组成部分,我们首先设计了潜在领域发现模块和领域对抗学习模块,通过无监督的方法获取伪领域标签,引导领域鉴别器和模型对抗训练,抑制背景信息。此外,本文还引入了对比学习模块,设计了k实例对比损失,通过增加对象特征的类间距离和减少对象特征的类内距离来优化疾病特征的表示。我们在两个道路病害检测数据集GRDDC和CNRDD上进行了实验,并与其他模型进行了比较,结果表明,与最优模型相比,GRDDC数据集上的检测结果提高了近4%,CNRDD数据集上的检测结果提高了4.6%。实验结果证明了该模型的有效性和优越性。

1.5 Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection

物联网环境下的未知攻击检测:一种用于增强网络入侵检测的开集分类器

https://arxiv.org/abs/2309.07461

在这里插入图片描述
物联网(IoT)设备在生活各个方面的广泛集成开创了一个互联时代,为网络安全挑战创造了新的途径,并强调了对强大入侵检测系统的需求。然而,传统的安全系统是从封闭世界的角度设计的,在应对不断变化的威胁环境方面经常面临挑战,新的和不熟悉的攻击不断出现。在本文中,我们介绍了一个框架,旨在减轻开集识别(OSR)的问题,在领域的网络入侵检测系统(NIDS)量身定制的物联网环境。我们的框架利用基于图像的数据包级数据的表示,从网络流量中提取空间和时间模式。此外,我们集成了堆叠和子聚类技术,通过有效地建模的复杂性和多样性的良性行为,使未知的攻击识别。实证结果突出强调了该框架的有效性,与现有方法和最新进展相比,对以前看不见的攻击具有令人印象深刻的88%的检测率。未来的工作将在各种开放级别和攻击场景中进行广泛的实验,进一步加强我们提出的解决方案在保护物联网环境方面的适应性和性能。

1.6 Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection

基于多模混合学习和序贯训练的RGB-T显著检测

https://arxiv.org/abs/2309.07297

在这里插入图片描述
RGB-T显着性检测已经成为一项重要的计算机视觉任务,可以在黑暗环境等具有挑战性的场景中识别明显的物体。然而,现有的方法忽略了跨模态特征的特性,并且仅仅依赖于网络结构来融合RGB和热特征。为了解决这个问题,我们首先提出了一个多模态混合损失(MMHL),包括监督和自我监督损失函数。MMHL的监督损失组件明显地利用了来自不同模态的语义特征,而自我监督损失组件减少了RGB和热特征之间的距离。我们进一步考虑空间和通道信息的功能融合,并提出混合融合模块,以有效地融合RGB和热功能。最后,而不是联合训练的网络与跨模态的功能,我们实施了一个顺序的训练策略,只执行训练RGB图像在第一阶段,然后学习跨模态的功能在第二阶段。这种训练策略在没有计算开销的情况下提高了显著性检测性能。性能评价和消融研究的结果表明,与现有的最先进的方法相比,所提出的方法实现了优越的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/133618.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现 pdf 转 word

前言:最直接的方式 wps 充会员可以直接转,但是单纯为了 使用这个功能有没啥必要 pdf转word方法 在线转换wps转换其他收费转换方式 在线转换 介绍在线转换,虽然样式简陋但是可以转换成功,转换以后也没有失真 http://ssyr.mynatap…

【无公网IP内网穿透】 搭建Emby媒体库服务器并远程访问「家庭私人影院」

目录 1.前言 2. Emby网站搭建 2.1. Emby下载和安装 2.2 Emby网页测试 3. 本地网页发布 3.1 注册并安装cpolar内网穿透 3.2 Cpolar云端设置 3.3 Cpolar内网穿透本地设置 4.公网访问测试 5.结语 1.前言 在现代五花八门的网络应用场景中,观看视频绝对是主力…

Jenkins 页面部分显示Http状态403 被禁止

前言 生产环境Jenkins部署了一段时间了,结果今天在流水线配置中,部分页面显示Jenkins 页面部分显示Http状态403 被禁止,修改配置点击保存之后偶尔也会出现这个。 问题 以下是问题图片 解决 在全局安全配置里面,勾选上启用代…

使用ExcelJS快速处理Node.js爬虫数据

什么是ExcelJS ExcelJS是一个用于处理Excel文件的JavaScript库。它可以让你使用JavaScript创建、读取和修改Excel文件。 以下是ExcelJS的一些主要特点: 支持xlsx、xlsm、xlsb、xls格式的Excel文件。可以创建和修改工作表、单元格、行和列。可以设置单元格样式、字…

C++之operator=与operator==用法区别(二百一十八)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

常见开源协议详解及应用案例

文章目录 0. 引言软件开源概述开源协议的重要性 1. 开源协议的几个关键概念1. 引用(Linking)2. 修改(Modification)3. 衍生品(Derivative works)4. 获取源码的权力(Right to access source code…

【mysql】1044 - Access denied for user ‘root‘@‘%‘ to database ‘test_job‘

登录mysql 为新建的库创建账号和授权 创建和授权命令 grant all on test_job.* to job% identified by 12345;flush privileges; 返回信息 grant all on test_job.* to job% identified by 12345 > 1044 - Access denied for user root% to database test_job > 查询…

linux安装常见的中间件和数据库

文章目录 一、数据库二、redis三、tomcat四、nginx五、mq六、es七、nacos八、neo4j(图数据库)九、fastdfs其他 一、数据库 linux环境上使用压缩包安装mysql【数据库】Mysql 创建用户与授权 二、redis redis是没有账号的,只能设置密码Linux…

EDA(Exploratory Data Analysis)探索性数据分析

EDA(Exploratory Data Analysis)中文名称为探索性数据分析,是为了在特征工程或模型开发之前对数据有个基本的了解。数据类型通常分为两类:连续类型和离散类型,特征类型不同,我们探索的内容也不同。 1. 特征类型 1.1 连续型特征 …

【Git】万字git与gitHub

🎄欢迎来到边境矢梦的csdn博文🎄 🎄本文主要梳理在git和GitHub时的笔记与感言 🎄 🌈我是边境矢梦,一个正在为秋招和算法竞赛做准备的学生🌈 🎆喜欢的朋友可以关注一下🫰&…

【送书活动】大模型赛道如何实现华丽的弯道超车

文章目录 导读前言AI/ML 模型训练任务对数据平台的需求01 具备对海量小文件的频繁数据访问的 I/O 效率02 提高 GPU 利用率,降低成本并提高投资回报率03 支持各种存储系统的原生接口04 支持单云、混合云和多云部署 核心密码01 通过数据抽象化统一数据孤岛02 通过分布…

Apache Kafka 基于 S3 的数据导出、导入、备份、还原、迁移方案

在系统升级或迁移时,用户常常需要将一个 Kafka 集群中的数据导出(备份),然后在新集群或另一个集群中再将数据导入(还原)。通常,Kafka集群间的数据复制和同步多采用 Kafka MirrorMaker&#xff0…

数据科学的文本技术 Text Technology(IR信息检索、搜索引擎)

一、文章摘要 1. 内容 * Introduction to IR and text processing, system components * Zipf, Heaps, and other text laws * Pre-processing: tokenization, normalisation, stemming, stopping. * Indexing: inverted index, boolean and proximity search * Evaluation m…

智能远程监考方案助力企业考试化繁为简

在音视频数字化之旅中,轻装上阵。 近年来,在数字化浪潮之下,远程考试频繁成为各领域热词,各企业也纷纷改革求新,将原本的企业内部考试转移到线上,从而获取更低廉的组考成本,更高的管理效率&…

ChatGPT 或其它 AI,能用在文书创作上吗?

新的申请季已经正式开始,一些热门项目的ED截止日期也不再遥远,因此很多准留学生们都已经开始了关于文书的创作。 而随着科技的不断发展,以ChatGPT为首的一众AI工具也作为一种辅助手段愈发融入了我们的生活。 那么不免就会有一些同学在准备申…

分类预测 | MATLAB实现WOA-CNN-BiGRU鲸鱼算法优化卷积双向门控循环单元数据分类预测

分类预测 | MATLAB实现WOA-CNN-BiGRU鲸鱼算法优化卷积双向门控循环单元数据分类预测 目录 分类预测 | MATLAB实现WOA-CNN-BiGRU鲸鱼算法优化卷积双向门控循环单元数据分类预测分类效果基本描述模型描述程序设计参考资料 分类效果 基本描述 1.Matlab实现WOA-CNN-BiGRU多特征分类…

线性代数的本质(四)——行列式

文章目录 行列式二阶行列式 n n n 阶行列式行列式的性质克拉默法则行列式的几何理解 行列式 二阶行列式 行列式引自对线性方程组的求解。考虑两个方程的二元线性方程组 { a 11 x 1 a 12 x 2 b 1 a 21 x 1 a 22 x 2 b 2 \begin{cases} a_{11}x_1a_{12}x_2b_1 \\ a_{21}x_…

【Proteus仿真】【STM32单片机】基于stm32的智能书桌设计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 系统运行后,默认为手动模式,当检测有人,可通过K2键开关灯,如果姿势不对, 警示灯亮,否则灭;可通过K3和K4键调节桌子高度&…

Linux下C语言使用 netlink sockets与内核模块通信

netlink简介 Netlink套接字是用以实现用户进程与内核进程通信的一种特殊的进程间通信(IPC) ,也是网络应用程序与内核通信的最常用的接口。在Linux标准内核中,系统默认集成了很多netlink实例,比如日志上报、路由系统等,netlink消息是双向的&a…

腾讯mini项目-【指标监控服务重构】2023-08-17

今日已办 定位昨日发现的问题 来回测试发现依然出现该问题 将 pub/sub 的库替换为原来官方基于 sarama 的实现,发现问题解决了,所以问题的根本是 kafkago 这个库本身存在问题 依据官方的实现,尝试自定义实现 pub/sub sarama 与 kafka-go …