History of Object Recognition (物体识别)

在github上看到一副总结的非常好的图(原图地址)先码住 😀😀😀

物体识别的综述

🍀发展历史
在这里插入图片描述

🌱图像分类(Image Classification)

在这里插入图片描述
任务:根据图像中的主导对象对图像进行分类。
数据集:MNIST, CIFAR, ImageNet

🌱物体定位(Object Localization)
在这里插入图片描述

任务:预测包含主导目标的图像区域。然后利用图像分类对该区域内的目标进行识别。
数据集:ImageNet

🌱物体识别(Object Recognition)
在这里插入图片描述
任务:对图像中出现的所有物体进行定位和分类。这个任务通常包括:提议区域,然后对其中的对象进行分类。
数据集:PASCAL, COCO

🌱语义分割(Semantic Segmentation)
在这里插入图片描述

任务:用图像所属的对象类标记图像的每个像素,例如本例中的人、羊和草。
数据集: PASCAL, COCO

🌱实例分割(Instance Segmentation)
在这里插入图片描述
任务:用它所属的对象类和对象实例标记图像的每个像素。
数据集:PASCAL, COCO

🌱关键点检测(Keypoint Detection)
在这里插入图片描述

任务:检测一组预定义的对象关键点的位置,如人体关键点,人脸关键点。
数据集:COCO

卷积网络的相关概念

🍄 特征(feature)
模式(pattern)、神经元激活(activation of a neuron)、特征检测器(feature detector)
在这里插入图片描述
特征指的是:当特定的模式(特征)出现在其输入区域(接收区域)时,被激活的隐藏神经元

神经元所检测到的模式可以通过以下方法可视化:
(1)优化输入区域以最大化神经元的激活(deep dream)
(2)在输入像素上可视化神经元激活的梯度或引导梯度(反向传播和引导反向传播)
(3)在训练数据集中可视化一组最能激活神经元的图像区域

🍄 接受域(Receptive Field)
一个特征的输入区域(input region of a feature)
在这里插入图片描述

接受域指的是:输入图像中影响特征激活的区域。换句话说,它是特征所关注的区域。

一般来说,更高层次的特征有更大的接受域,这允许它学习捕捉更复杂/抽象的模式。卷积神经网络结构决定了接受域如何一层一层地改变。

🍄 特征图(Feature Map)
一个隐藏层的通道(a channel of a hidden layer)
在这里插入图片描述
特征图指的是:通过在输入图片的不同位置应用相同的特征检测器(滤波器)以滑动窗口的方式创建的一组特征(即卷积)

同一特征图中的特征具有相同的接受能力,并且在不同的位置寻找相同的模式。这就产生了卷积神经网络的空间不变性特性。

🍄 特征量(Feature Volume)
卷积神经网络中的隐藏层(a channel of a hidden layer)
在这里插入图片描述
特征量指的是一组特征映射(特征图),每个特征图搜索在输入图片上的一组固定位置上的特征。所有特征都具有相同的接受域大小。

🍄 全连接层作为特征量(Fully connected layer as Feature Volume)
具有k个隐藏节点的全连接层(fc层——通常连接到卷积神经网络的末端用于分类)可以看作是一个1x1xk的特征量。
该特征量在每个特征图中有一个特征,其接受域覆盖整个图像。将一个1x1xk的过滤器内核与一个1x1xd的特征卷进行卷积,将创建一个1x1xk的特征卷。用卷积层代替完全连接的层,使我们能够将卷积网络应用于任意大小的图像。

🍄 转置卷积(Transposed Convolution)
反向传播卷积运算的梯度的运算。换句话说,它是卷积层的向后传递。一个转置的卷积可以被实现为一个在输入特征之间插入零的正常卷积。一个滤波器大小为k, stride s和零填充p的卷积有一个相关的转置卷积,其滤波器大小为k ’ =k, stride s ’ =1,零填充p ’ =k-p-1,并且在每个输入单元之间插入s-1 0。
在这里插入图片描述在这里插入图片描述
如上图左边,红色的输入单元有助于激活左上角的4个输出单元(通过4个彩色方块),因此它从这些输出单元接收梯度。这种梯度反向传播可以通过右侧所示的转置卷积来实现。

🍄 端到端的物体识别系统(End-To-End object recognition pipeline)

通过优化单一目标函数(即各阶段变量的可微函数)来训练所有阶段(预处理、区域提案生成、提案分类、后处理)的目标识别流程 这种端到端系统与传统的物体识别系统相反,后者以一种不可微分的方式连接各个阶段。在这些系统中,我们不知道改变一个阶段的变量会如何影响整体性能,所以每个阶段必须独立或交替训练,或启发式编程。

物体检测相关概念(Object Recognition Concepts)

🌴 边界框提议(Bounding box proposal)
兴趣区域(region of interest),区域提议(region proposal),框提案(box proposal)

在这里插入图片描述
输入图像中可能包含对象的矩形区域。这些建议可以通过一些启发式搜索生成:对象性搜索、选择性搜索或区域建议网络(RPN)。可以表示为一个边界框第4单元向量,要么存储它的两个角坐标(x0, y0) (x1, y1),或(更常见)存储其中心位置和它的宽度和高度(x, y, w h)。一个边界框通常是伴随着一个置信度得分(即判断检测框中有多大的可能性包含物体)。两个包围盒之间的差通常由它们向量表示的L2距离来测量。W和h在计算距离前可以进行对数变换。

🌴 交并比 (Intersection over Union、IOU)

度量真实框和检测框之间的相似度
在这里插入图片描述
🌴 非极大值抑制(Non Maxium Suppression、NMS)
任何与更高可信度的检测框显著重叠的检测框(IoU > IoU_threshold)被抑制(删除)。
在这里插入图片描述
🌴 Bounding box regression(边界框的回归)
在这里插入图片描述

通过观察输入区域,我们可以推断出更适合其中对象的边界框,即使对象只是部分可见。上面的例子说明了仅通过观察物体的一部分就可以推断出ground truth box的可能性。
因此,可以训练一个回归器来观察一个输入区域,预测输入区域框和真值框之间的偏移∆(x, y, w, h)。如果每个对象类都有一个回归器,则称为特定类的回归,否则称为与类无关的回归(所有类都有一个回归器)。
边界框回归器通常伴随着一个边界框分类器(置信度得分器)来估计对象存在于框中的置信度。分类器也可以是特定于类的或与类无关的。如果没有定义前面的框,输入区域框就扮演前面的框的角色。

🌴 先验框(Prior box)
在这里插入图片描述

与使用输入区域作为唯一的先验框不同,我们可以训练多个边界框回归器,每个回归器看着相同的输入区域,但有不同的先验框,并学习预测自己的先验框和地面真值框之间的偏移量。这样,具有不同先验框的回归器可以学习预测具有不同属性(宽高比、比例、位置)的边界框。先前的框可以相对于输入区域进行预定义,或者通过聚类学习。正确的框匹配策略是使训练收敛的关键。

🌴 检测框匹配策略(Box matching Strategy)

我们不能指望边界框回归器能够预测离输入区域或先验框(更常见)太远的对象。因此,我们需要一个匹配策略来决定哪个先验框和真实值匹配。每个匹配都是一个用于回归的训练例子。可能的策略:(多箱)将每个真实箱与一个先前有最高IOU的先验框匹配;
在这里插入图片描述

完整图片~
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32417.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌 TensorFlow 物理检测 API,目前最好的物体识别方案?

原文:Is Google Tensorflow Object Detection API the easiest way to implement image recognition? 作者:Priya Dwivedi 译者:聂震坤 审校:屠敏 用大数据干大事! 目前有很多种图像识别的方案,而 Goog…

姿态识别、手势识别(附代码)

姿态识别技术是一种基于计算机视觉的人体姿态分析方法,可以通过分析人体的姿态,提取出人体的关键点和骨架信息,并对人体的姿态进行建模和识别。随着深度学习技术的发展,近年来姿态识别技术得到了广泛的应用和研究,其中Pose是一种基于深度学习的姿态识别工具包。本篇博客将…

用户手势检测-GestureDetector使用详解

前言:今天终于可以正常上班了,阿里的百技真的真的太累了,作为队长,不仅要考虑到每一个人的感受,而且要最大程度地使大家团结起来,共同完成一个任务,四天的时间,14个人的小组完成一个…

如何使用OpenCV对物体进行搜索检测与识别

在本教程中,我们将了解对象检测中称为“选择性搜索”的重要概念。我们还将用C 和Python共享OpenCV代码。 物体检测与物体识别 对象识别算法识别图像中存在哪些对象。它将整个图像作为输入,并输出该图像中存在的对象的类标签和类概率。例如,类…

通用物体识别使用攻略

作者:让天涯 一、需求描述 大家在出去旅游的时候,往往会对景点里的特色事物感兴趣,而一般情况下,如果没有导游的介绍,我们不太清楚这个景区里的特色景点是什么,有时候即使看到了一个事物,都不…

python姿态检测实现多人多姿态识别python行为识别openpose行为骨骼框架检测动作识别动作检测行为动作分类

效果演示: 视频演示: python行为识别行为骨骼框架检测动作识别动作检测行为动作分类 项目下载链接:https://download.csdn.net/download/babyai996/87552750 0环境项目配置教程:https://download.csdn.net/download/babyai996/87…

Win11集成 ChatGPT,任务栏取消分组真的回来了

时隔两月微软如期发布了 Win11 Moments 3 更新,版本号 22621.1778 。 微软这次更新带来了许多质量更新和功能改进。 直观的改动是任务栏,网络图标在连接加密隧道时会上锁,时间显示到秒也重新回归。 日常会用到的 AltTab 任务选项卡被限制到最…

​干货!影视剪辑大神常用避免侵权的8个秘籍首次公开【覃小龙课堂】

哈罗,我是您的老朋友:覃小龙,您可以称呼我为覃总,因为我是腾然MCN和火星电商的老板,我2016年创办腾然MCN至今,已经是自媒体的骨灰级老司机了,所以今天给您带来的主题是: 干货&#x…

影视剪辑,视频剪辑的万能剪辑技巧来啦,剪辑技巧合集

好多人在学习视频剪辑时不知道如何入手! 今天这一篇总结来啦! 首先要掌握的就是关于正确的视频剪辑流程 ①建立好项目文件夹。根据时间、地点、大体拍摄内容等分类,在不同的文件夹存入对应的物料和工程。 ②获取素材。提前收集好要用的包装…

影视剪辑,PR剪辑软件两个转场教程

一、古风渐变擦除转场:拖入视频1和视频2,将视频2放到视频1上面的轨道,2者重叠部分就是转场部分。 【效果】【渐变擦除】,拖到视频2。 在开头K关键帧,【效果控件】【渐变擦除】【过渡完成】K帧调到100。 在2段视频交接…

影视剪辑,你应该掌握的剪辑流程和技巧

很多朋友想学视频剪辑,但是不知道如何入手?今天就把我的压箱底都告诉你们啦! 应该先掌握的剪辑流程! 建立好项目文件夹。在每个级的文件夹存入对应的物料和工程。 获取素材。先收集要用的所有素材与音乐。 回看和分类。按照脚本的结构进行素材分类&am…

影视剪辑视频制作教程,必备私藏软件工具分享给大家

影视剪辑最直接粗暴的方式就是送钱给作者,你只要发出剪辑的视频,有流量就有钱。所以现在很多新手自媒体都会选择影视解说赛道,但是影视剪辑视频的创作过程也是有很多重点要抓的,不搞清楚,账号也很难做起来!…

我们要被淘汰了?从科技变革看"ChatGPT"与"无代码开发"

现在只要一上网,就能看见GPT都在说“好厉害”、“太牛了”、“新技术要诞生了”、“我们人类要被淘汰了”之类的话题。 但是这伟大的技术变革到底给我们带来了什么呢?答案好像又比较模糊。现在ChatGPT的代写、问答,以及开始做的搜索、办公是目…

计算机相关专业混体制的解决方案(考公务员)

文章目录 序:编制介绍1、公务员报考要求2、公务员工作待遇3、公务员工作内容4、公务员报考复习 序:编制介绍 编制介绍:编制,也就是常说的铁饭碗。 编制的诞生为了控制吃财政饭的人员数量无限膨胀而设置的,所以名额有限…

在线LLM应用集锦(持续更新ing...)

诸神缄默不语-个人CSDN博文目录 本博文关注能够在线直接用的AI大模型应用。 大模型冲鸭!加速! 最近更新时间:2023.7.24 最早更新时间:2023.6.8 文章目录 1. 自研2. 非自研3. LLM衍生服务 1. 自研 聊天机器人 ChatGPT https://c…

“云炬众创”小程序的操作演示

1是什么 “云炬众创”是云炬网络公司在国家“大众创新、万众创业”口号号召下开发的一个探索创业性的小程序,目前主要内容是考研真题等学习资料的免费分享和下载。 2为什么 (1)考研真题等学习有很重要的价值 (2)考…

ChatGPT应用|科大讯飞星火杯认知大模型场景创新赛开始报名了!

ChatGPT发布带来的 AI 浪潮在全球疯狂蔓延,国内掀起的大模型混战已经持续半年之久,国产大模型数量正以惊人的速度增长,据不完全统计,截止7月14号已经达到了111个,所谓的“神仙打架”不过如此了吧。 ( 包括但…

chatgpt赋能python:Python中的迭代器

Python中的迭代器 在Python中,迭代器是一种对象,它可以让我们可以遍历(或迭代)序列中的元素而不必了解它们如何存储在内存中。迭代器是Python中许多高级构造的基础 - 他们节省了空间,并且它们能够帮助我们更有效地处理…

chatgpt赋能python:Python迭代次数

Python迭代次数 Python作为一个动态语言,具有简单易学、易读易写、适用于快速开发等优点,已经成为众多开发者的首选语言。而其中的迭代功能更是方便快捷,可以用于处理数据集合或者处理流程控制等方面。但是,迭代次数同样是一个需…

2022年中考英语热点话题作文预测(满分范文15篇)

01 北京冬奥会 假设你是李华,最近收到新西兰笔友Peter的电子邮件,说他对北京冬奥会的吉祥物冰墩墩和冬残奥会的吉祥物雪容融非常感兴趣,但对其具体寓意不太清楚,请你参照下面表格的内容,给他回一封电子邮件。 注意&a…