目标检测实战教程Day1(原创)

原创不易,转载请标明本文地址
目标检测一直是计算机视觉领域的核心问题之一,它就像是让计算机拥有了一双“鹰眼”,能在复杂的图像中迅速锁定和识别出各种有趣的目标,比如人、汽车、动物或者任何其他特定物体。在这一章,将会介绍并实际部署目标检测。
本章主要涉及到的知识点有:

  • 目标检测概念:介绍目标检测的发展历史和基本概念,包括它的技术演变、关键算法以及在各种实际应用中的应用。
  • 目标检测模型的分类:了解两类目标检测模型,理解它们的区别和实际应用。
    目标检测中的YOLO模型深入解析:全面掌握YOLO模型的结构、工作原理以及如何在实际情况中高效应用。
  • 模型部署:从环境部署开始,理解并学会搭建属于自己的YOLO模型,训练自己的数据集,并将结果应用到日常生活中。

一、目标检测技术概述

本节将从目标检测的重要性与应用出发,详尽地介绍目标检测的核心原理与方法,目的是帮助读者了解目标检测的工作机制和实现技术。通过本节的学习,读者将能够掌握目标检测的基本分类与关键概念,为后续模型的实际部署做准备。

1.1 目标检测的重要性与应用

目标检测,也称为目标提取,属于计算机视觉的四大核心任务之一,包括分类、定位、检测和分割。这项技术通过分析目标的几何和统计特征,实现图像的有效分割和识别。简单地说,目标检测的任务是确定图像中包含哪些元素以及这些元素的具体位置,通常通过矩形框或者分割曲线来标记这些元素,如图1所示。

图1
-------------------------------------------------------------------------------图1------------------------------------------------------------------------------
目标检测的大致发展如表1所示。这些方法依靠简单的特征提取和模式识别技术来识别图像中的物体。虽然这些技术在处理低复杂度图像时表现良好,但在更复杂的实际场景中却效果有限,因为它们无法处理物体多尺度的变化和各种程度上的遮挡,因此目标检测技术在当时只是实验室的研究产物,距离实现生产生活中的实际应用仍有鸿沟。

年份研究人员主要贡献描述
1970s早期目标检测方法基于传统图像处理方法,如边缘检测和区域生长,使用手工特征进行图像特征表示。
2001保罗·维奥拉(Paul Viola) & 迈克尔·琼斯(Michael Jones)Viola-Jones 检测器提出了一个基于简单特征的增强级联分类器,在保持相同检测精度的情况下,运算速度显著优于当时的其他算法。
2005N. Dalal & B. Triggs方向梯度直方图(HOG)特征描述器在图像的局部区域内统计梯度方向的出现频率。将图像分割成小的单元(cells),每个单元内的梯度方向被统计并放入直方图中。为了提高鲁棒性,通常将相邻单元组成更大的块(blocks)并进行局部归一化处理。
2008Pedro Felzenszwalb可变形部件模型(DPM)扩展了HOG检测器,提出了一种基于部件的对象检测模型,不仅考虑对象的整体特征,还考虑其局部部件的形态和相对位置,能够处理部件间的变形,提高在物体部分遮挡或姿态变化情况下的检测效果。
后续发展Ross Girshick 等研究者DPM 的改进与深度学习整合提高了DPM的训练和检测速度,通过整合深度学习技术,进一步提升了检测的精度和鲁棒性,增强了其在计算机视觉领域的应用效果。

随着硬件技术的快速发展和深度学习技术的飞速进步,目标检测的准确性已显著提高,并且在复杂环境中的表现已大大超越了早期的传统方法,越来越多的学者致力于研究更高效更准确的目标算法,并将其从高成本的高算力平台移植并部署在资源受限的边缘设备,服务在我们生活中的方方面面,如图2中所示,在工业自动化领域,它助力机器人识别并操作物体;在安全监控系统中,它能自动侦测潜在的威胁或不寻常行为;而在自动驾驶领域,目标检测是确保车辆正确感知周边环境并安全行驶的关键技术。除此之外,从医疗影像分析到线下智能零售,再到智能手机等边缘设备的智能识别,目标检测技术都展现了其广泛的应用潜力和实际价值。

--------------------------------------------------(a)--------------------------------------------------------------------------------------(b)------------------------------------------
--------------------------------------------------(c)--------------------------------------------------------------------------------------(d)------------------------------------------

图2(a)为应用于机器人的目标检测 (b)为在自动驾驶领域的应用(c)为癌症病灶分割(d)为智能零售概念图

1.2 基于回归的单阶段( One-stage) 目标检测模型

目前的目标检测模型主要有两大类,一类是基于候选区域的双阶段(Two-stage)目标检测模型,另一类是基于回归的单阶段(One-stage) 目标检测模型。单阶段目标检测算法中,常见的模型包括YOLO、SSD和Faster R-CNN等。尤其是YOLO(You Only Look Once)系列算法,以其高效的准确率和便捷的部署方式,在工业界广受青睐。下面我们将以YOLO为例,详细介绍单阶段目标检测算法的核心特性。
与传统的目标检测方法(如基于滑动窗口的方法)不同,YOLO将整个图像分割成一个SxS的网格。每个网格单元负责预测中心点落在该单元内的目标。每个网格负责预测B个包含类别、边界框相对坐标和置信度的One-hot向量,使得算法能够有效地在图像中检测并识别目标物体。如图3所示,为YOLO第一代版本YOLOv1的架构图,这是一种用于目标检测的深度神经网络。从输入到输出,从左到右围为各种类型的层——包括卷积层(Conv. Layer)、最大池化层(Maxpool Layer)和全连接层(Conn. Layer)。这个网络通过多次卷积和池化处理图像,逐步降低空间维度,同时增加深度,以此来提取图像的特征,最终通过全连接层输出目标的类别和位置。为了应对图像中目标尺度的多样性,YOLOv3引入了特征金字塔网络(FPN)机制。该机制通过在Darknet53-tiny基础网络上加入多级下采样和上采样层,产生三种不同分辨率的特征图,分别对应大、中、小尺度的目标。最高分辨率的特征图侧重于小目标的检测,而较低分辨率的特征图则更适合大目标的检测,从而提升了整体的检测精度和效率。考虑到原始图像到网格的映射会大幅降低分辨率,而且目标检测和识别主要在网格单元上进行,这种设计显著减少了计算量。然而,这也可能导致同一目标被多个网格单元重复预测,进而产生多个重叠的预测框。为解决这一问题,YOLO采用了非最大抑制(NMS)技术。NMS的工作原理是:首先根据预测框的置信度进行降序排列,选取置信度最高的框作为参考框,然后移除所有与此参考框交并比(IoU)超过特定阈值的框。接着从剩余的框中选取置信度最高的作为新的参考框,重复此过程,直到所有框都处理完毕。 图4(a) 是人脸检测的候选框结果,每个边界框有一个置信度得分(confidence score),如果不使用非极大值抑制,就会有多个候选框出现。 图4(b)是使用非极大值抑制之后的结果,删除了多余的检测框,使检测结果更加符合实际需要。

在这里插入图片描述
图3 YOLOv1的架构图

在这里插入图片描述
--------------------------------------------------------------------------------图4--------------------------------------------------------------------------

此外,为进一步优化YOLO算法,可以考虑多模型融合的思想,结合多个不同配置或版本的YOLO模型来进行多模型融合集成判断。这种方法可以在一定程度上集成不同模型的优势,增强目标检测的鲁棒性和准确性。例如,可以将YOLOv3与YOLOv4的检测结果进行融合,利用YOLOv4在速度和精度上的优势,与YOLOv3在特定场景下的优异表现相结合,以期达到更好的检测效果。
YOLOv5是Ultralytics团队在2020年推出的一个升级版本,相较于以往的模型在处理速度和检测精度方面都实现了显著提升。该模型结构更为轻量,整合了多种规模的卷积层与池化层来有效提取图像特征。YOLOv5的架构主要分为三大部分:骨干网络、颈部网络和预测端。骨干网络主要由卷积层、C3模块和SPPF模块构成,用于初步提取图像特征。颈部网络融合了FPN和PAN的结构,其中FPN负责将深层的高级特征向浅层传递,而PAN则增强了自底向上的信息流,改善了特征的空间定位能力。在预测端,模型输出三种不同分辨率的特征图(80×80、40×40、20×20),分别对应小型、中型和大型目标的检测。这种设计使得YOLOv5能够更精确地处理不同大小的目标。
YOLOv8 是由 Ultralytics 公司开发的最新一代目标检测模型,于 2023 年 1 月正式发布。它继承了 YOLO 系列模型的核心优势,并加入了多种创新特性和改进。YOLOv8 根据网络深度和宽度的不同分为不同的版本,包括 YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8 和 YOLOv8x,这些版本的网络结构基本相同,唯一的区别在于它们的深度和宽度,以满足不同任务和性能要求,使得用户可以根据自己的具体用例找到合适的模型,如图5所示,为YOLOv8的架构图。、

在这里插入图片描述
--------------------------------------------------------------------------------图5--------------------------------------------------------------------------
YOLOv9是由Chien-Yao Wang、I-Hau Yeh和Hong-Yuan Mark Liao共同提出的新一代目标检测系统,它引入了一种新的网络架构——广义高效层聚合网络(GELAN),结合了高效的层聚合模块和计算模块。此架构优化了模型的深度和宽度,以最大限度地提高精确度同时减少计算需求。GELAN的设计是模块化的,允许其在不同的模型大小和计算限制中有效地扩展。另外,它还引入了了可编程梯度信息(PGI)模块,增强了训练过程,通过确保更可靠的学习梯度。这极大提高了小型模型的训练精度,因为小型模型常常受到噪声或不可靠梯度的困扰,这会影响训练效率和模型收敛。因此,在性能上,YOLOv9上表现出色,显著超过了如YOLOv5等之前的版本,无论是在精确度还是效率上都有所提升。它在如MS COCO数据集这样的基准测试上取得了更高的平均精度,同时使用更少的参数和计算资源。例如,与YOLOv8相比,YOLOv9模型在平均精度上提高了至多1.7%,并且同时减少了参数数量和计算开销。
在这里插入图片描述

--------------------------------------------------------------------------------图6--------------------------------------------------------------------------
YOLOv10是YOLO系列的最新迭代版本,在实时目标检测领域实现了显著的性能提升。此版本通过引入多项创新技术,有效提高了检测速度和准确性,同时显著降低了计算成本。在架构创新和训练策略方面,YOLOv10采用了双标签分配策略,结合一对多和一对一的标签分配,提供了丰富的监督信号,并允许在不使用非最大抑制(NMS)的情况下实现端到端的部署,极大地提高了推断阶段的效率。为了平衡模型性能与计算效率,YOLOv10引入了轻量级的分类头部和空间-通道解耦的下采样技术,以及基于层级的块设计,优化了模型在各种尺度上的表现,特别是在小物体检测方面表现出色。如图7所示,在多个标准基准测试中,YOLOv10展现出比前几代YOLO版本和其他先进模型更高的效率和精确度,尤其在延迟和参数数量方面均显示出显著改进,同时在保持或提升检测性能的基础上,大幅提升了推理速度。

在这里插入图片描述

-----------------------------------------------------------图7 YOLOv10和其它模型的对比--------------------------------------------------------------------------

注意:YOLO系列模型是单阶段目标检测算法模型的一个典型代表,因此将重点介绍,以便更好地理解这类模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443085.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NeuVector部署、使用与原理分析

文章目录 前言1、概述2、安装与使用2.1、安装方法2.1.1、部署NeuVector前的准备工作2.1.1.1 扩容系统交换空间2.1.1.2 Kubernetes单机部署2.1.1.2.1 部署Docker2.1.1.2.2 部署Kubectl2.1.1.2.3 部署Minikube 2.1.1.3 Helm部署 2.1.2、使用Helm部署NeuVector 2.2、使用方法2.2.1…

跟《经济学人》学英文:2024年09月28日这期 The curse of the Michelin star

The curse of the Michelin star Restaurants awarded the honour are more likely to close, research finds 原文: The twelve new restaurants added to the New York Michelin Guide this month, serving up cuisine ranging from “haute French” to “eco…

【springboot9735】基于springboot+vue的车辆充电桩

主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路,关注作者有好处 项目描述 随着信息化时代的到来,管理系统都趋向于智能化、系统化,车辆充电桩…

LabVIEW交直流接触器动态检测系统

LabVIEW软件与霍尔传感器技术结合的交直流接触器动态检测系统通过实时数据采集和处理技术,有效地测量并分析交直流接触器在吸合及吸持阶段的电流和电压变化,以及相应的功率消耗,从而优化电力和配电系统的性能和可靠性。 项目背景 交直流接触…

【Linux:线程控制】

目录 线程的创建与等待: ​编辑 代码中tid是什么? 如何看待线程函数传参? ​编辑 ​编辑创建多线程:​编辑 终止多线程: 线程分离: 线程封装: 线程的创建与等待: void *thre…

在docker中安装并运行mysql8.0.31

第一步:命令行拉取mysql镜像 docker pull mysql:8.0.31查看是否拉取成功 docker images mysql:latest第二步:运行mysql镜像,启动mysql实例 docker run -p 3307:3307 -e MYSQL_ROOT_PASSWORD"123456" -d mysql:8.0.313307:3307前…

51单片机的智能水温控制系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器继电器LED和按键等模块构成。适用于智能热水器控制、泳池水温控制系统等相似项目。 可实现功能: 1、LCD1602实时显示水温信息和上下限 2、温度传感器DS18B20采集水体温度 3、当温度低于下限&#xff0…

Linux环境通过APT 仓库安装版PostgreSQL 数据库实战

Linux环境通过APT 仓库安装版PostgreSQL 数据库是运维人员常见的需求之一,今天我们一步一步演示一下: 1、添加 PostgreSQL APT 仓库 确保你的系统更新,然后添加 PostgreSQL 的官方 APT 仓库。 sudo apt update sudo apt install -y wget w…

基于MindSpore实现CycleGAN壁画修复

基于MindSpore实现CycleGAN壁画修复_哔哩哔哩_bilibili 本案例运行需要较大内存,建议在Ascend/GPU上运行。 模型介绍 模型简介 CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络,来自论文 Unpaired Image-to-Image Translation us…

大模型日报|7 篇必读的大模型论文

大家好,今日必读的大模型论文来啦! 1.上交大团队新研究:像专家一样大规模提升预训练数据质量 大语言模型(LLM)的预训练历来依赖于人类专家为提高语料库质量而精心设计的启发式方法,迄今为止已开发出大量规…

SpringSession;基于Redis的SpringSession实现;实现session共享的三种方式

一,SpringSession简介 是SpringCloud下管理session的框架,在微服务架构中,由于应用了分布式的思想,session无法做到内存中互通,需要一个框架来实现各个微服务中session数据共享,SpringSession解决了这个问题…

城市交通场景分割系统源码&数据集分享

城市交通场景分割系统源码&数据集分享 [yolov8-seg-C2f-Faster&yolov8-seg-GhostHGNetV2等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Glob…

信创一定要了解的知识

什么是信创 定义 信创,全称为信息技术应用创新产业,旨在发展国产信息产业,减少对国外技术的依赖,实现软硬件的国产替代化。信创产业是数字经济的关键支撑,涵盖从基础硬件到应用软件的全产业链。 产业范畴 信创产业…

C0015.Clion中开发C++时,连接Mysql数据库方法

安装mysql数据库 CMakeLists.txt中配置mysql数据库 # 先指定mysql数据库的安装位置 include_directories("C:/Program Files/MySQL/MySQL Server 8.0/include") link_directories("C:/Program Files/MySQL/MySQL Server 8.0/lib") link_libraries(libmysq…

AI会计师——让AI+成就价值财务

摘要:用友携手CCTV-10联合策划《AI会计师》专题节目 目录 Part1 数智化凭证采集 Part2 智能月结 Part3 税务风险管控 Part1 数智化凭证采集 AI会计师,源自对大数据、人工智能、云计算等前沿技术的深度融合。它不仅仅是一款软件,更是企业智能…

Python基础之List列表用法

1、创建列表 names ["张三","李四","王五","Mary"] 2、列表分片 names[1]:获取数组的第2个元素。 names[1:3]:获取数组的第2、第3个元素。包含左侧,不包含右侧。 names[:3]等同于names[0:3]&…

大模型推理框架llama.cpp开发流程和常用函数介绍

llama.cpp是一个高性能的CPU/GPU大语言模型推理框架,适用于消费级设备或边缘设备。开发者可以通过工具将各类开源大语言模型转换并量化成gguf格式的文件,然后通过llama.cpp实现本地推理。经过我的调研,相比较其它大模型落地方案,中…

AI时代的直播革命!洞察数字化趋势,从今日开启你的AIGC旅程!

AI时代的直播革命!洞察数字化趋势,从今日开启你的AIGC旅程! 在AI技术日新月异的今天,直播行业正经历着一场前所未有的革命。这场革命不仅深刻改变了内容创作、传播与消费的方式,更预示着未来数字化时代娱乐与商业互动的…

PCL 计算点云AABB包围盒(惯性矩阵)

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 计算AABB包围盒 2.1.2 可视化点云与AABB包围盒 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长…

Java 集合实现类

Java 集合实现类 ​ Java 提供了一套实现了 Collection 接口的标准集合类。其中一些是具体类,这些类可以直接拿来使用,而另外一些是抽象类,提供了接口的部分实现 序号类描述1AbstractCollection 实现了大部分的集合接口。2AbstractList 继承…