学习经验分享【39】YOLOv12——2025 年 2 月 19 日发布的以注意力为核心的实时目标检测器

      YOLO算法更新速度很快,已经出到V12版本,后续大家有想发论文或者搞项目可更新自己的baseline了。

代码:GitHub - sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors

摘要:长期以来,增强 YOLO 框架的网络架构一直至关重要,但尽管注意力机制在建模能力方面已被证明具有优越性,此前的改进却一直集中在基于卷积神经网络(CNN)的方面。这是因为基于注意力机制的模型在速度上无法与基于 CNN 的模型相媲美。本文提出了一个以注意力机制为核心的 YOLO 框架,即 YOLOv12,它在利用注意力机制性能优势的同时,能够达到与之前基于 CNN 的模型相当的速度。YOLOv12 在精度上超越了所有流行的实时目标检测器,并且速度也极具竞争力。例如,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度均值(mAP),推理延迟为 1.64 毫秒,在速度相当的情况下,其 mAP 比先进的 YOLOv10-N/YOLOv11-N 高出 2.1%/1.2%。这一优势也延伸到了其他模型规模。YOLOv12 还超越了改进自 DETR 的端到端实时检测器,如 RT-DETR/RT-DETRv2:YOLOv12-S 击败了 RT-DETR-R18/RT-DETRv2-R18,同时运行速度快 42%,仅使用了 36% 的计算量和 45% 的参数。

1 核心技术

  • 区域注意力(Area Attention):将图像分割为多个区域,默认纵向 / 横向 4 份,仅对区域间进行注意力计算。使计算量从²降至,计算成本减半,保持大视野的同时精度损失微小。
  • 残差高效层聚合网络(R-ELAN):引入残差连接和分层聚合设计,跨层传递特征增强信息流通,减少中间模块降低计算开销,加速梯度流动并稳定训练。
  • 架构优化:取消最后阶段的三层堆叠改为单层 R-ELAN;用轻量级卷积替代全连接层;移除位置编码;调整 MLP 比例从 4:1 降至 1.2:1;引入 FlashAttention 解决注意力的内存访问问题,还引入大卷积核(7×7 卷积)增强位置感知能力。
2 性能优势 
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。
3 应用领域

YOLOv12 作为 YOLO 系列的最新版本,继承了 YOLO 系列的高效和快速,理论上可应用于 YOLO 算法的常见领域:

  • 自动驾驶:用于实时检测道路上的行人、车辆、交通标志等,帮助自动驾驶系统做出安全驾驶决策。
  • 视频监控:用于智能视频监控系统,检测公共场所中的可疑人员、丢失物品或暴力事件等,实现异常行为检测和预警。
  • 机器人视觉:帮助机器人更准确地识别和理解周围环境中的物体,对机器人导航、抓取和操作等任务至关重要。
  • 农业自动化:可由农业无人机或地面机器人携带摄像头拍摄农田图像,用于检测农作物病虫害,帮助农民及时发现并采取措施减少损失。
  • 医疗影像分析:可探索用于某些医疗影像分析场景,如肺结节检测等,检测并标记出潜在的病灶区域。
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22676.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch实现之特征损失与残差结构稳定GAN训练,并训练自己的数据集

简介 简介:生成器和鉴别器分别采用了4个新颖设计的残差结构实现,同时在损失中结合了鉴别器层的特征损失来提高模型性能。 论文题目:Image Generation by Residual Block Based Generative Adversarial Networks(基于残留块的生成对抗网络产生图像) 会议:2022 IEEE Int…

后“智驾平权”时代,谁为安全冗余和体验升级“买单”

线控底盘,正在成为新势力争夺下一个技术普及红利的新赛点。 尤其是进入2025年,比亚迪、长安等一线传统自主品牌率先开启高阶智驾的普及战,加上此前已经普及的智能座舱,舱驾智能的「科技平权」进一步加速行业启动「线控底盘」上车窗…

【Node.js】express框架

目录 1初识express框架 2 初步使用 2.1 安装 2.2 创建基本的Web服务器 2.3 监听方法 2.3.1 监听get请求 2.3.2 监听post请求 2.4 响应客户端 2.5 获取url中的参数(get) 2.5.1 获取查询参数 2.5.2 获取动态参数 2.6 托管静态资源 2.6.1 挂载路径前缀 2.6.2 托管多…

树形DP(树形背包+换根DP)

树形DP 没有上司的舞会 家常便饭了&#xff0c;写了好几遍&#xff0c;没啥好说的&#xff0c;正常独立集问题。 int head[B]; int cnt; struct node {int v,nxt; }e[B<<1]; void modify(int u,int v) {e[cnt].nxthead[u];e[cnt].vv;head[u]cnt; } int a[B]; int f[B]…

REACT--组件通信

组件之间如何进行通信&#xff1f; 组件通信 组件的通信主要借助props传递值 分为整体接收、解构接收 整体接收 import PropTypes from prop-types;//子组件 function Welcome(props){return (<div>hello Welcome,{props.count},{props.msg}</div>) }// 对 We…

【排序算法】六大比较类排序算法——插入排序、选择排序、冒泡排序、希尔排序、快速排序、归并排序【详解】

文章目录 六大比较类排序算法&#xff08;插入排序、选择排序、冒泡排序、希尔排序、快速排序、归并排序&#xff09;前言1. 插入排序算法描述代码示例算法分析 2. 选择排序算法描述优化代码示例算法分析 3. 冒泡排序算法描述代码示例算法分析与插入排序对比 4. 希尔排序算法描…

纠错检索增广生成论文

一、摘要 动机&#xff1a;RAG严重依赖于检索文档的相关性&#xff0c;如果检索出错&#xff0c;那么LLM的输出结果也会出现问题 解决方案&#xff1a;提出纠正性检索增强生成&#xff08;CRAG&#xff09;即设计一个轻量级的检索评估器&#xff0c;用来评估针对某个查询检索…

Java NIO与传统IO性能对比分析

Java NIO与传统IO性能对比分析 在Java中&#xff0c;I/O&#xff08;输入输出&#xff09;操作是开发中最常见的任务之一。传统的I/O方式基于阻塞模型&#xff0c;而Java NIO&#xff08;New I/O&#xff09;引入了非阻塞和基于通道&#xff08;Channel&#xff09;和缓冲区&a…

easelog(1)基础C++日志功能实现

EaseLog(1)基础C日志功能实现 Author: Once Day Date: 2025年2月22日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 注&#xff1a;本简易日志组件代码实现参考了Google …

Vue面试2

1.跨域问题以及如何解决跨域 跨域问题&#xff08;Cross-Origin Resource Sharing, CORS&#xff09;是指在浏览器中&#xff0c;当一个资源试图从一个不同的源请求另一个资源时所遇到的限制。这种限制是浏览器为了保护用户安全而实施的一种同源策略&#xff08;Same-origin p…

MongoDB应用设计调优

应用范式设计 什么是范式 数据库范式概念是数据库技术的基本理论&#xff0c;几乎是伴随着数据库软件产品的推出而产生的。在传统关系型数据库领域&#xff0c;应用开发中遵循范式是最基本的要求。但随着互联网行业的发展&#xff0c;NoSQL开始变得非常流行&#xff0c;在许多…

Mac安装配置Tomcat 8

一、官网下载 Index of /disthttps://archive.apache.org/dist/ 1、进入界面如下&#xff1a; 2、我们找到Tomcat文件夹并进入 3、找到Tomcat 8并打开 4、找到对应的版本打开 5、打开bin 6、找到“apache-tomcat-8.5.99.tar.gz”并下载 二、配置Tomcat 1、解压已经下载好的…

【论文精读】VLM-AD:通过视觉-语言模型监督实现端到端自动驾驶

论文地址&#xff1a; VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision 摘要 人类驾驶员依赖常识推理来应对复杂多变的真实世界驾驶场景。现有的端到端&#xff08;E2E&#xff09;自动驾驶&#xff08;AD&#xff09;模型通常被优化以模仿…

百度搜索,能否将DeepSeek变成“内功”?

最近&#xff0c;所有的云平台和主流APP都在努力接入DeepSeek。其中&#xff0c;搜索类APP与搜索引擎更是“战况激烈”。那么问题来了&#xff0c;接入DeepSeek已经变成了标准配置&#xff0c;到底应该如何做出差异化&#xff1f;接入DeepSeek这件事能不能实现11大于2的效果&am…

Flask实现高效日志记录模块

目录 一. 简介&#xff1a; 1. 为什么需要请求日志 二. 日志模块组成 1. 对应日志表创建&#xff08;包含日志记录的关键字段&#xff09; 2. 编写日志记录静态方法 3. 在Flask中捕获请求日志 4. 捕获异常并记录错误日志 5. 编写日志接口数据展示 6. 写入数据展…

25轻化工程研究生复试面试问题汇总 轻化工程专业知识问题很全! 轻化工程复试全流程攻略 轻化工程考研复试真题汇总

轻化工程复试心里没谱&#xff1f;学姐带你玩转面试准备&#xff01; 是不是总觉得老师会问些刁钻问题&#xff1f;别焦虑&#xff01;其实轻化工程复试套路就那些&#xff0c;看完这篇攻略直接掌握复试通关密码&#xff01;文中有重点面试题可直接背~ 目录 一、这些行为赶紧避…

查看已经安装的Python库,高效管理自己的Python开发环境

在日常的Python开发中&#xff0c;掌握如何管理和查看已经安装的库是非常重要的。这不仅能帮助你了解当前项目的依赖关系&#xff0c;还能避免出现版本冲突等问题。在这篇文章中&#xff0c;我们将详细介绍查看已安装Python库的方法&#xff0c;并提供一些实用的工具和技巧。 …

Selenium实战案例1:论文pdf自动下载

在上一篇文章中&#xff0c;我们介绍了Selenium的基础用法和一些常见技巧。今天&#xff0c;我们将通过中国科学&#xff1a;信息科学网站内当前目录论文下载这一实战案例来进一步展示Selenium的web自动化流程。 目录 中国科学&#xff1a;信息科学当期目录论文下载 1.网页内…

Visual Studio Code 2025 安装与高效配置教程

一、软件简介与下载 1. Visual Studio Code 是什么&#xff1f; Visual Studio Code&#xff08;简称VS Code&#xff09;是微软推出的免费开源代码编辑器&#xff0c;支持 智能代码补全、Git集成、插件扩展 等功能&#xff0c;适用于前端开发、Python、Java等多种编程场景。…

工业路由器和工业交换机,打造高效稳定的工业网络?

工业路由器和工业交换机各有千秋&#xff0c;但如何将它们完美结合&#xff0c;构建稳定高效的工业网络&#xff1f;答案就在这里&#xff01; 工业物联网&#xff08;IIoT&#xff09;是高效、稳定的工业网络成为智慧工厂、工业自动化和远程监控等场景的基础支撑。工业路由器…