目标检测及锚框、IoU

目标检测及锚框、IoU

news/2024/12/23 18:45:48/文章来源:https://blog.csdn.net/weixin_45682053/article/details/134080317

文章目录

- 1. 目标检测
- 2. 锚框
- 3. IoU - 交并比
- 4. 赋予锚框标号
- 5. 使用非极大值抑制（NMS）输出

1. 目标检测

物体检测（目标检测）是计算机视觉和数字图像处理的热门方向，意在判断一幅图像上是否存在感兴趣物体，并给出物体分类及位置等（What and Where）。本文主要进行物体检测研究背景、发展脉络、相关算法及评价指标的概述。

我们要识别中所有我们感兴趣的物体，并且找出每个物体的位置。

边缘框

边缘框是图片中物体的真实位置和范围，有两种表示方式，一种是边角坐标表示法，通过物体左上和右下两个角的坐标表示一个矩形框，还有一种是中心表示法，用物体的中心和宽高表示矩形框。

一个边缘框可以通过4个数字定义
- (左上x，左上y，右下x，右下y)
- (左上x，左上y，宽，高)

在这里插入图片描述

目标检测数据集

每行表示一个物体
- 图片文件名、物体类别、边缘框
COCO数据集
- 80物体，330K图片，1.5M物体

定义两种边缘框之间的转换函数

import torch
def box_corner_to_center(boxes):""" 从（左上，右下）转换到（中间，宽度，高度） """x1,y1,x2,y2 = boxes[:,0],boxes[:,1],boxes[:,2],boxes[:,3]cx = (x1+x2)/2cy = (y1+y2)/2w = x2-x1h = y2-y1boxes = torch.stack((cx,cy,w,h),dim=1)return boxesdef box_center_to_corner(boxes):"""从（中间，宽度，高度）转换到（左上，右下）"""cx,cy,w,h = boxes[:,0],boxes[:,1],boxes[:,2],boxes[:,3]x1 = cx - 0.5 * wy1 = cy - 0.5 * hx2 = cx + 0.5 * wy2 = cy + 0.5 * hboxes = torch.stack((x1, y1, x2, y2), dim=1)return boxes

边缘框实现

from matplotlib import pyplot as plt# 将边界框在图中画出
def bbox_to_rect(bbox,color):return plt.Rectangle(xy=(bbox[0], bbox[1]), width=bbox[2] - bbox[0], height=bbox[3] - bbox[1],fill=False, edgecolor=color, linewidth=2)dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]fig = plt.figure(figsize=(5,8),dpi=100)
ax1 = fig.add_subplot(1,1,1)
image= plt.imread("code/images/catdog.jpg")
ax1.imshow(image)ax1.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
ax1.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
plt.show()

2. 锚框

在众多经典的目标检测模型中，均有先验框的说法，有的paper(如Faster RCNN)中称之为anchor(锚点)，有的paper(如SSD)称之为prior bounding box(先验框)，实际上是一个概念。

锚框的作用：

对于目标检测任务，有这样一种经典解决方案：遍历输入图像上所有可能的像素框，然后选出正确的目标框，并对位置和大小进行调整就可以完成目标检测任务。这些进行预测的像素框就叫锚框。这些锚框通常都是方形的。

同时，为了增加任务成功的几率，通常会在同一位置设置不同宽高比的锚框。锚框的设置形式有很多种。

一类目标检测算法是基于锚框
- 提出多个被称为锚框的区域（边缘框）
- 预测每个锚框里是否含有关注的物体
- 如果是，预测从这个锚框到真实边缘的偏移

在这里插入图片描述

3. IoU - 交并比

IoU用来计算两个框之间的相似度

在这里插入图片描述

0表示无重叠，1表示重合

这是Jacquard指数的一个特殊情况

给定两个集合 $A$ 和 $B$
$J(A,B)=\frac{|A \cap B|}{|A \cup B|}$

4. 赋予锚框标号

每个锚框是一个训练样本
将每个锚框，要么标注成背景，要么关联上一个真实边缘框
我们可能会生成大量的锚框
- 这个导致大量的负类样本

在蓝色格子里面寻求IoU的最高值，选中，比如：

第一个最大值为 $x_{23}$ ,那就用锚框2来预测边缘框3，去除锚框2边缘框3所对应的行列。

继续在剩下的格子里面寻找最大值，如 $x_{71}$ ，那就用锚框7来预测边缘框1，去除锚框7边缘框1所对应的行列。

在这里插入图片描述

赋予标号的方式有很多种。

5. 使用非极大值抑制（NMS）输出

每个锚框预测一个边缘框
NMS可以合并相似的预测
- 选中的是非背景类的最大预测值
- 去掉所有其它和它IoU值大于 $\theta$ 的预测
- 重复上诉过程直到所有预测要么被选中，要么被去掉

如：

在这里插入图片描述

首先选取狗类别的最大预测值，为0.9，然后去除该类别预测值小于0.9且IoU大于 $\theta$ 的值。
然后选取猫类别的最大预测值，为0.9，然后去除该类别预测值小于0.9且IoU大于 $\theta$ 的值。
在这里插入图片描述

总结：

一类目标检测算法基于锚框来预测
首先生成大量锚框，并赋予标号，每个锚框作为一个样本进行训练
在预测时，使用NMS来去掉冗余的预测

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/174779.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

3.7每日一题（凑微分求不定积分）

3.7每日一题（凑微分求不定积分）

阅读更多...

List的add(int index,E element)陷阱，不得不防

List的add(int index,E element)陷阱，不得不防

项目场景： 项目中有两个List列表，一个是List1用来存储一个标识，后续会根据这个标识去重。一个List2是用来返回对象的，其中对象里也有一个属性List3。现需要将重复的标识数据追加到List3 我想到的两个方案： 尽量不动…

阅读更多...

C/S架构和B/S架构

C/S架构和B/S架构

1. C/S架构和B/S架构简介 C/S 架构（Client/Server Architecture）和 B/S 架构（Browser/Server Architecture）是两种不同的软件架构模式，它们描述了客户端和服务器之间的关系以及数据交互的方式。 C/S 架构&#xff08…

阅读更多...

diffusion model (八) Dalle3 技术小结

diffusion model (八) Dalle3 技术小结

paper：https://cdn.openai.com/papers/dall-e-3.pdf 创建时间： 2023-10-25 相关阅读 diffusion model（一）DDPM技术小结 (denoising diffusion probabilistic)diffusion model（二）—— DDIM技术小结diffu…

阅读更多...

机器人入门（四）—— 创建你的第一个虚拟小车

机器人入门（四）—— 创建你的第一个虚拟小车

机器人入门（四）—— 创建你的第一个虚拟小车一、小车建立过程1.1 dd_robot.urdf —— 建立身体1.2 dd_robot2.urdf —— 添加轮子1.3 dd_robot3.urdf —— 添加万向轮1.4 dd_robot4.urdf —— 添加颜色1.5 dd_robot5.urdf —— 添加碰撞检测(Collision …

阅读更多...

最近面试遇到的高频面试题

最近面试遇到的高频面试题

大家好，我是 jonssonyan 互联网寒冬？金九银十真的不存在了么？虽说现在行情是差了一些，面试机会少了一些，但是大部分公司还是或多或少的招人，春招秋招都在进行。有人离职就有人入职。所以如果你还没约到面试…

阅读更多...

【Linux】安装与配置虚拟机及虚拟机服务器坏境配置与连接

【Linux】安装与配置虚拟机及虚拟机服务器坏境配置与连接

目录操作系统介绍什么是操作系统常见操作系统 UNIX操作系统 linux操作系统 mac操作系统嵌入式操作系统个人版本和服务器版本的区别安装VMWare虚拟机 VMWare虚拟网卡编辑配置虚拟网络编辑器编辑安装配置Windows Server 2012 R2 安装Windows Server 2…

阅读更多...

钉钉超过90天的文件需要一分钟重新激活的实现原理是什么？

钉钉超过90天的文件需要一分钟重新激活的实现原理是什么？

具体实现原理可能包括以下几点： 冷热数据分类：系统会根据文件的访问频率将文件分为热数据和冷数据两类。热数据是经常被访问的文件，这些文件会被存储在快速的存储设备上，以便快速访问。冷数据是很少被访问的文件，这些…

阅读更多...

小红书app拉新上线了适合网推社群和校园渠道作业

小红书app拉新上线了适合网推社群和校园渠道作业

小红书app签到拉新上线了可以通过“聚量推客”进行申请，下面大概是要求和流程要求网推社群渠道或者地推校园渠道，其它类型渠道禁止

阅读更多...

18 行为型模式-观察者模式

18 行为型模式-观察者模式

行为模式共有11种： 观察者模式模板方法模式策略模式职责链模式状态模式命令模式中介者模式迭代器模式访问者模式备忘录模式解释器模式以上 11 种行为型模式，除了模板方法模式和解释器模式是类行为型模式，其他的全部属于对象行为型…

阅读更多...

华为eNSP配置专题-策略路由的配置

华为eNSP配置专题-策略路由的配置

文章目录华为eNSP配置专题-策略路由的配置0、概要介绍1、前置环境1.1、宿主机1.2、eNSP模拟器 2、基本环境搭建2.1、终端构成和连接2.2、终端的基本配置 3、配置接入交换机上的VLAN4、配置核心交换机为网关和DHCP服务器5、配置核心交换机和出口路由器互通6、配置PC和出口路由器…

阅读更多...

redis archive github

https://github.com/redis/redis/releases/tag/7.2.2https://github.com/redis/redis/releases/tag/7.2.2

阅读更多...

塔式服务器介绍

塔式服务器介绍

大家都知道服务器分为机架式服务器、刀片式服务器、塔式服务器三类，今天小编就分别讲一讲这三种服务器，第三篇先来讲一讲塔式服务器的介绍。塔式服务器定义：塔式服务器的外观和普通电脑差不多，直立放置。机箱比较大，服…

阅读更多...

高数笔记04：微分方程与多元函数微分学

图源：文心一言时间比较紧张，仅导图~~🥝🥝 第1版：查资料、画导图~🧩🧩 参考资料：《高等数学基础篇》武忠祥 🦮思维导图 😶‍🌫️思维导图为整…

阅读更多...

mysql的医院信息管理系统，数据库增删改查。

mysql的医院信息管理系统，数据库增删改查。

基于前端网页和后端服务的，mysql医院信息管理系统。功能有：登录注册、首页、科室管理、科室列表、医院管理、医生列表、病人管理、护士管理、病房管理、文件管理等等。并且引入了Echarts图标，可视化查看数据。源码下载地址支持&#xff…

阅读更多...

Java——Spring的控制反转（一文详解IOC）

Java——Spring的控制反转（一文详解IOC）

Spring，Spring MVC，Spring Boot 三者比较答： 这三者专注的领域不同，解决的问题也不一样；总的来说，Spring 就像一个大家族，有众多衍生产品例如 Boot，Security，JPA等等。…

阅读更多...

DeOldify 接口化改造集成 Flask

DeOldify 接口化改造集成 Flask

类似的图片修复项目 GFPGAN 的改造见我另一篇文 https://blog.csdn.net/weixin_43074462/article/details/132497146 DeOldify 是一款开源软件，用于给黑白照片或视频上色，效果还不错。安装部署教程请参考别的文章，本文基于你给项目跑通&…

阅读更多...

Flask Run运行机制剖析

Flask Run运行机制剖析

一、前言已经玩了一段时间Flask ，每次调用app.run(或flask run)就可以启动应用，今天我们就来了解一下run背后究竟做了些什么事情。注：通过上面几行代码就可以启动一个Flask服务器，打开浏览器输入http://127.0.0.1:5000, 页面上…

阅读更多...

【JVM】类加载器

【JVM】类加载器

【JVM】类加载器文章目录【JVM】类加载器0. 类加载器概述1. 类加载器的分类1.1 启动类加载器1.2 Java中的默认类加载器1.2.1 扩展类加载器1.2.2 应用程序类加载器 2. 双亲委派机制2.1 类的双亲委派机制是什么？2.2 打破双亲委派机制2.2.1 自定义类加载器2.2.2 线程…

阅读更多...

Android多张图片rotation旋转角度叠加/重叠堆放

Android多张图片rotation旋转角度叠加/重叠堆放 <?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-auto"…

阅读更多...

最新文章

推荐文章