百度最近又搞了波大的,推出了一种全新的实时端到端目标检测算法RT-DETRv3,性能&耗时完爆YOLOv10。
RT-DETRv3基于Transformer设计,属于代表模型DETR的魔改进化版。这类目标检测模型都有着强大的扩展性与通用性,因为Transformer模型的结构可以根据具体任务进行调整和优化,非常适合应对不同的检测需求和场景。
更绝的是,Transformer拥有强大的全局上下文建模能力和并行计算能力,能精准捕捉图像中的信息,显著提高目标检测的效率。因此用Transformer做目标检测也是CV领域重要的研究热点,而且这方法也为目标检测技术的不断发展提供了更多的创新思路。
为了帮助论文er们快速找到idea,我这边整理好了11篇Transformer+目标检测论文供大家参考,基本都是最新且有代码,有需要的同学可无偿获取~
论文原文+开源代码需要的同学看文末
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
方法:论文介绍了一个名为 RT-DETRv3 的实时端到端目标检测算法,它基于 Transformer 架构。RT-DETRv3 是 RT-DETR 系列的最新版本,通过引入多层次的密集正样本辅助监督方法来提高模型的训练效果和检测性能。实验证明RT-DETRv3在速度和准确性之间取得了很好的平衡,超越了现有的实时检测器。
创新点:
-
提出多重一对多辅助密集监督模块,应用于RT-DETR的编码器和解码器,在训练阶段加速收敛并提升整体性能。
-
引入自注意力扰动模块,通过多组查询的多样化标签分配,增强解码器的监督。
-
采用共享权重解码器分支进行密集正样本监督,确保每个地面真值有更多高质量的匹配查询。
Towards sar automatic target recognition multicategory sar image classification based on light weight vision transformer
方法:论文提出了一种基于轻量级视觉Transformer的模型,用于合成孔径雷达图像的自动目标识别。模型架构包括Transformer编码器和MLP,能够有效分类不同目标。实验表明,LViT能够有效识别三种装甲运兵车及其他车辆,准确率超过95.97%。
创新点:
-
引入了一种基于轻量级视觉transformer的模型用于合成孔径雷达(SAR)图像分类。
-
提出了关注全局模式的识别方法,在SAR图像分类中不仅提高了结果的准确性,还增强了模型的稳健性。
-
LViT模型具有层次可扩展性,可以应用于更大场景的数据集或更复杂的SAR图像分类任务。
An Unsupervised Momentum Contrastive Learning Based Transformer Network for Hyperspectral Target Detection
方法:文章介绍了一种基于无监督动量对比学习的Transformer网络,用于高光谱目标检测。该方法通过叠加光谱块嵌入和交叉令牌前馈层,提高了特征提取能力,同时利用非线性变换的背景抑制机制显著提高了目标检测的灵敏度。
创新点:
-
创新性地结合了基于Transformer的编码器和动量编码器网络,以增强特征提取能力。
-
通过无监督动量对比学习,利用动态更新的负样本特征队列,使模型能够展现出卓越的光谱可区分性。
-
提出了一种利用非线性变换的背景抑制机制,通过指数函数和幂函数的归一化操作,显著增强了目标检测的灵敏度。
Uni3DETR: Unified 3D Detection Transformer
方法:论文介绍了一个名为Uni3DETR的统一3D检测框架,它使用基于Transformer的网络结构来同时处理室内和室外的3D目标检测任务。通过混合查询点输入检测Transformer进行点体素交互,并利用解耦的IoU监督Transformer解码器,Uni3DETR弥补了现有研究在统一3D检测下的不足。
创新点:
-
提出Uni3DETR,一种基于Transformer的统一3D检测框架,能够在同一网络结构中处理室内和室外3D物体检测。
-
提出解耦的IoU作为训练目标,通过分离xy和z空间,提供易于优化的定位指标。
-
进行跨数据集评估,展示Uni3DETR在不同数据集间的卓越泛化能力。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“目标T”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏