【前沿 热点 顶会】AAAI 2025中与目标检测有关的论文

CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection(AAAI 2025)

最近关于通用物体检测的研究旨在将语言引入最先进的闭集检测器,然后通过构建大规模(文本区域)数据集进行训练,以推广开放集概念。然而,这些方法面临两个主要挑战:(i)如何有效地利用提示中的先验信息以泛化物体,以及(ii)如何在下游任务中减少对齐偏差,这两者在预训练以外的一些场景中导致次优性能。为了解决这些挑战,我们提出了一种强大的通用检测基础模型,称为CP-DETR,该模型在几乎所有场景中都具有竞争力,只需一个预训练权重。具体来说,我们设计了一种高效的提示视觉混合编码器,通过逐层和多尺度融合模块增强提示与视觉之间的信息互动。然后,混合编码器通过提示多标签损失和辅助检测头充分利用提示信息。除了文本提示外,我们还设计了两种实用的概念提示生成方法,即视觉提示和优化提示,通过具体的视觉示例提取抽象概念,并在下游任务中稳定地减少对齐偏差。凭借这些有效的设计,CP-DETR在广泛的场景中表现出卓越的通用检测性能。例如,我们的Swin-T主干模型在LVIS上达到了47.6的零样本AP,而Swin-L主干模型在ODinW35上达到了32.2的零样本AP。此外,我们的视觉提示生成方法通过交互检测在COCO验证集上达到了68.4的AP,而优化提示在ODinW13上达到了73.1的全样本AP。

SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection(AAAI 2025)

对于自动驾驶汽车来说,3D 目标检测是一项基础的感知任务。使用 4D 毫米波雷达完成这样的任务极具吸引力,因为该传感器能够获取类似于激光雷达的 3D 点云,同时在恶劣天气下仍能保持稳定的测量。然而,由于雷达点云的高稀疏性和噪声,现有方法的性能仍然远低于预期。在本文中,我们针对基于 4D 雷达的 3D 目标检测提出了一种新颖的半监督跨模态知识蒸馏 (SCKD) 方法。它通过半监督蒸馏表征了从 Lidar 雷达融合教师网络学习特征的能力。我们首先在教师网络中提出了一个自适应融合模块来提升其性能。然后,设计了两个特征蒸馏模块来促进跨模态知识转移。最后,提出了一种半监督输出蒸馏来提高蒸馏框架的有效性和灵活性。在相同网络结构下,我们由 SCKD 训练的仅限雷达学生将基准测试的 mAP 提升了 10.38%,并且优于 VoD 数据集上的最新成果。当有额外的未标记数据可用时,ZJUODset 上的实验还显示在中等难度级别上,与基准测试相比,mAP 提高了 5.12%。代码可在GitHub - Ruoyu-Xu/SCKD: AAAI 2025获得。

HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection(AAAI 2025)

毫米波雷达由于其全天候和全光照条件下的感知能力,在自动驾驶的3D目标检测中起着至关重要的作用。然而,雷达点云具有明显的稀疏性和不可避免的角度估计误差。为了解决这些限制,结合使用摄像头可以部分帮助缓解这些缺点。然而,由于图像中缺乏深度信息和在恶劣光照条件下的低质量图像特征,雷达和摄像头数据的直接融合会导致负面甚至相反的效果。因此,在本文中,我们提出了具有混合生成和同步 (HGSFusion) 的雷达相机融合网络,旨在更好地融合雷达电位和图像特征以进行 3D 物体检测。具体来说,我们提出了雷达混合生成模块 (RHGM),该模块在雷达信号处理中充分考虑了到达方向 (DOA) 估计误差。该模块通过不同的概率密度函数 (PDF) 生成更密集的雷达点,并借助语义信息。同时,我们引入了双重同步模块 (DSM),包括空间同步和模态同步,以使用雷达位置信息增强图像特征并促进不同模态中不同特征的融合。大量实验表明了我们方法的有效性,在 RoI AP 和 BEV AP 中分别以 6.53% 和 2.03% 的优势优于 VoD 和 TJ4DRadSet 数据集中的最先进方法。代码可在https://github.com/garfield-cpp/HGSFusion获得。

RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection(AAAI 2025)

在雷达相机 3D 目标检测中,雷达点云通常稀疏且噪声大,这给相机和雷达模态的融合带来了困难。为了解决这个问题,我们引入了一种名为雷达相机 Transformer(RCTrans)的新型基于查询的检测方法。具体来说,我们首先设计了一个雷达稠密编码器来丰富稀疏的有效雷达标记,然后将它们与图像标记连接起来。通过这样做,我们可以充分探索每个感兴趣区域的 3D 信息,并在融合阶段减少空标记的干扰。然后,我们设计了一个剪枝顺序解码器,以基于获得的标记和随机初始化的查询预测 3D 框。为了减轻雷达点云中仰角模糊的影响,我们通过顺序融合结构逐步定位物体的位置。它有助于在标记和查询之间获得更精确和灵活的对应关系。解码器中采用了剪枝训练策略,这可以在推理过程中节省大量时间,并抑制查询丢失其独特性。在大型 nuScenes 数据集上的大量实验证明了我们方法的优越性,并且我们还取得了新的最先进的雷达相机 3D 检测结果。我们的实现可在GitHub - liyih/RCTrans: [AAAI 2025] RCTrans: Radar-Camera Transformer via Radar Densiffer and Sequential Decoder for 3D Object Detection获得。

Universal Domain Adaptive Object Detection via Dual Probabilistic Alignment(AAAI 2025)

领域自适应对象检测(DAOD)在封闭集假设下将来自标记源域的知识转移到未标注文目标域。通用DAOD(UniDAOD)扩展了DAOD以处理开放集、部分集和封闭集域自适应。在本文中,我们首先揭示了两个问题:域私有类别对齐对于全局级特征至关重要,并且不同级别特征的域概率异质性。为了解决这些问题,我们提出了一种新颖的双概率对齐(DPA)框架,将域概率建模为高斯分布,从而实现异质域分布采样和度量。DPA包括三个定制模块:全局级别域私有对齐(GDPA)、实例级别域共享对齐(IDSA)和私有类约束(PCC)。GDPA利用全局级别采样来挖掘域私有类别样本,并通过累积分布函数计算对齐权重以解决全局级别私有类别对齐问题。IDSA 利用实例级别采样来挖掘域共享类别样本,并通过高斯分布计算对齐权重以执行域共享类别域对齐以解决特征异质性。PCC汇总了特征和概率空间之间的域私有类别质心以减轻负迁移。大量实验表明,我们的DPA在各种数据集和场景(包括开放集、部分集和封闭集)中都优于最先进的UniDAOD和DAOD方法。代码可在以下网址获得:https://github.com/zyfone/DPA。

Differential Alignment for Domain Adaptive Object Detection(AAAI 2025)

领域自适应目标检测 (DAOD) 旨在将针对标记源域数据训练的目标检测器泛化到没有注释的目标域,其核心原则是源目标特征对齐。一般来说,现有方法使用对抗性学习对齐源域和目标域的分布,在特征对齐过程中几乎不考虑不同区域(例如,在不同情况下和前景 vs 背景区域中的实例)的不同重要性。为了克服这一缺陷,我们研究了一种差分特征对齐策略。具体来说,我们设计了一个预测差异反馈实例对齐模块(简称 PDFA)自适应地将较大权重分配给具有较高教师学生检测差异的实例,有效处理较重的特定域信息。此外,我们还提出了一种基于不确定性的面向前景的图像对齐模块 (UFOA),以明确指导模型更多地关注感兴趣区域。我们对广泛使用的 DAOD 数据集进行了大量实验以及消融研究,以证明我们提出的方法的有效性,并揭示其优于其他 SOTA 替代方案。我们的代码可在https://github.com/EstrellaXyu/Differential-Alignment-for-DAOD获得。

CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics(AAAI 2025)

基于事件的相机具有高时间分辨率、宽动态范围和低功耗,非常适合高速和低光照对象检测。由于其尖峰特性,尖峰神经网络 (SNN) 有望用于基于事件的对象识别和检测,但这缺乏高效的训练方法,导致梯度消失和计算开销高,尤其是在深度 SNN 中。此外,现有的 SNN 框架通常无法有效处理多尺度时空特征,从而导致数据冗余增加和精度降低。为了解决这些问题,我们提出了 CREST,这是一个新颖的联合训练的尖峰驱动框架,用于利用基于事件的对象检测中的时空动态。我们引入了联合学习规则来加速 SNN 学习并缓解梯度消失问题。它还支持双重操作模式,以便在不同类型的硬件上高效且灵活地实施。此外,CREST 采用了完全尖峰驱动的框架,其中包括多尺度时空事件积分器 (MESTOR) 和时空-IoU (ST-IoU) 损失。与最先进的 SNN 算法相比,我们的方法在三个数据集上实现了卓越的对象识别和检测性能,并且能效提高了 100 倍,为基于 SNN 硬件实现的基于事件的对象检测算法提供了一种高效的解决方案。

小小的总结:

从上面的内容可以看出,通用目标检测和事件相机仍然是一个热点,尤其是事件相机,论文数量在不断增加,但是远未到泛滥的地步;在自动驾驶中,Radar获得了越来越多的关注,这大概是因为基于Lidar的算法已经到达了很高的指标,难以提升;域适应仍然是一个难点,但是通用目标检测是否会冲击域适应?
总体来说,希望能够尽快放出全部AAAI的论文,从而根据自己领域的录用情况,判断当下的热点和未来的研究方向。

NIPS|CVPR 2024论文合集PDF版

这些资料收录了NIPS和CVPR 2024所有论文的标题和摘要,是中英文对照的,读起来方便多了。

如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻这些最新的研究,说不定就能找到一些新的想法或思路。

平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的!

NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/496463.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Excel无法插入新单元格怎么办?有解决方法吗?

在使用Excel时,有时会遇到无法插入新单元格的困扰。这可能是由于多种原因导致的,比如单元格被保护、冻结窗格、合并单元格等。本文将详细介绍3种可能的解决方案,帮助你顺利插入新单元格。 一、消冻结窗格 冻结窗格功能有助于在滚动工作表时保…

电子配件行业的未来之路:产品说明书数字化转型的力量

在科技飞速发展的今天,电子配件行业作为科技创新的前沿阵地,正经历着前所未有的变革。从智能手机、平板电脑到智能穿戴设备,各种新型电子配件层出不穷,极大地丰富了人们的生活。然而,随着产品种类的增多和功能的复杂化…

Python+Django 技术实现自动化漏洞扫描系统开发

作者简介 ,徐师兄是一位拥有7年大厂经验的资深程序员,致力于Python技术领域的探索与实践,擅长毕业设计实战。他拥有超过12万的全网粉丝,是CSDN博客专家,也是掘金、华为云、阿里云和InfoQ等平台的优质作者。除了丰富的实…

EleutherAI/pythia-70m

EleutherAI/pythia-70m” 是由 EleutherAI 开发的一个小型开源语言模型,它是 Pythia Scaling Suite 系列中参数量最小的模型,拥有大约 7000 万个参数。这个模型主要旨在促进对语言模型可解释性的研究; Pythia Scaling Suite是为促进可解释性…

WinForm 美化秘籍:轻松实现 Panel 圆角虚线边框

文章目录 1、引言2、案例实现1、创建自定义 Panel 类2、定义圆角矩形3. 使用自定义 Panel4. 调整属性5、使用背景图片来实现5、拓展:使用 Panel 的 Paint重绘单独实现虚线边框效果 3、实现效果4、总结 1、引言 在 Winform 应用程序开发中,美化用户界面&…

Goland 安装与使用

GoLand安装 官方网址: JetBrains GoLand:不只是 Go IDE 1. 进入官网,点击下载: ​ 2. 如下图一步步安装 ​ ​ ​ ​ ​ 3. 如下图一步步安装

pdf有密码,如何实现pdf转换word?

PDF想要转换成其他格式,但是当我们将文件拖到PDF转换器进行转换的时候发现PDF文件带有密码怎么办?今天分享PDF有密码如何转换成word方法。 方法一、 PDF文件有两种密码,打开密码和限制编辑,如果是因为打开密码,建议使…

uniapp实现APP、小程序与webview页面间通讯

需求: 1、需要在Uniapp开发的APP或小程序页面嵌入一个H5网页,需要拿到H5给APP传递的数据。 2、并且这个H5是使用vuevant开发的。(其实跟使用uniapp开发H5一样) 实现步骤: 1、首先需要兼容多端和App端,因…

Vue开源项目Pure Admin二次开发:实现前后端柱状图

目标:在Vue开源项目Pure Admin的基础上,增加菜单和标签页,实现同期温度对比的柱状图,支持按时段查询。 先贴上效果图: 增加菜单 新建src\router\modules\weather.ts, export default {path: "/weat…

Markdown语法字体字号讲解

学习目录 语法详解改变字体样式[电脑要自带该样式字体]改变局部字号全局字体字号的设置使用场景及应用实例 > 快乐试试吧😃 👇 👇 👈点击该图片即可跳转至Markdown学习网站进行 Markdown语法字体字号讲解👈点击这里…

ESP-NETIF L2 TAP 接口-物联网嵌入式开发应用

ESP-NETIF L2 TAP 概述 ESP-NETIF L2 TAP 接口是 ESP-IDF 访问用户应用程序中的数据链路层(OSI/ISO 中的 L2)以进行帧接收和传输的机制。在嵌入式开发中,它通常用于实现非 IP 相关协议,如 PTP 和 Wake on LAN 等。 Tips : 目前…

xterm遇到的问题及解决方案

xterm遇到的问题及解决方案 /r插入终端导致的之后插入的数据覆盖了改行头部的数据 问题说明 如图所示,当在一行输入的候,输入的l插入到了改行的头部。 查看ws返回数据 可见ws返回的信息存在\r字符,在xterm.js中\r是回车字符的意思&…

springboot 工程使用proguard混淆

在 Maven 构建的 Spring Boot 项目中使用 ProGuard 进行代码混淆时,需要正确配置 Maven 插件和 ProGuard 的混淆规则。由于 Spring Boot 项目通常会依赖大量的反射机制和动态代理,因此必须特别小心确保这些部分在混淆过程中不会被破坏。 步骤 1&#xf…

我的秋招总结

我的秋招总结 个人背景 双非本,985硕,科班 准备情况 以求职为目的学习Java的时间大概一年。 八股,一开始主要是看B站黑马的八股文课程,背JavaGuide和小林coding还有面试鸭。 算法,250,刷了3遍左右 项目&…

Java Stream流详解——串行版

Stream流——串行版 ​ Stream流是java8引入的特性&#xff0c;极大的方便了我们对于程序内数据的操作&#xff0c;提高了性能。通过函数式编程解决复杂问题。 1.BaseStream<T,S extense BaseStream<T,S>> ​ 他是流处理的基石概念&#xff0c;重点不在于这个接…

fisco-bcos系统架构

系统架构 整体架构 标签&#xff1a;架构 强扩展性 模块设计 整体架构上&#xff0c;FISCO BCOS划分成基础层、核心层、管理层和接口层&#xff1a; 基础层:提供区块链的基础数据结构和算法库 核心层: 实现了区块链的核心逻辑&#xff0c;核心层分为两大部分&#xff1a…

探秘仓颉编程语言:使用体验与功能剖析

目录 一、引言&#xff1a;仓颉登场&#xff0c;编程新纪元开启 二、初体验&#xff1a;搭建环境与 “Hello World” &#xff08;一&#xff09;环境搭建指南 &#xff08;二&#xff09;Hello World 初印象 三、核心特性剖析&#xff1a;智能、高效、安全多维解读 &…

Java 面试合集(2024版)

种自己的花&#xff0c;爱自己的宇宙 目录 第一章-Java基础篇 1、你是怎样理解OOP面向对象??? 难度系数&#xff1a;? 2、重载与重写区别??? 难度系数&#xff1a;? 3、接口与抽象类的区别??? 难度系数&#xff1a;? 4、深拷贝与浅拷贝的理解??? 难度系数&…

指针与数组:深入C语言的内存操作艺术

数组名的理解 在上⼀个章节我们在使⽤指针访问数组的内容时&#xff0c;有这样的代码&#xff1a; int arr[10] {1,2,3,4,5,6,7,8,9,10}; int *p &arr[0]; 这⾥我们使⽤ &arr[0] 的⽅式拿到了数组…

使用RabbitMQ

一、MQ是什么 MQ全称 Message Queue&#xff08;消息队列&#xff09;&#xff0c;是在消息的传输过程中保存消息的容器。多用于分布式系统之间进行通信&#xff0c;主要功能业务解耦。 二、市面上常见的MQ产品 RabbitMQ、RocketMQ&#xff08;阿里的&#xff09;、Kafka 、…