深度神经网络——图像分类如何工作?

智能手机如何仅凭拍摄的照片就能识别物体?社交媒体网站又是如何自动标记照片中的人物?这些功能背后,是人工智能驱动的图像识别和分类技术。

图像识别和分类技术是人工智能领域中一些最令人瞩目的成就。但计算机是如何学会检测和分类图像的呢?本文将介绍计算机对图像进行解释和检测的一般方法,并探讨一些用于图像分类的流行技术。

像素级与基于对象的分类

图像分类技术主要可以分为两类: 基于像素的分类 和基于对象的分类。

像素是图像的基本单位,像素分析是图像分类的主要方式。 然而,分类算法可以仅使用单个像素内的光谱信息来对图像进行分类,也可以检查空间信息(附近的像素)以及光谱信息。 基于像素的分类方法仅利用光谱信息(像素的强度),而基于对象的分类方法则考虑像素光谱信息和空间信息。

有多种不同的分类技术用于基于像素的分类。 这些包括最小均值距离、最大似然度和最小马哈拉诺比斯距离。 这些方法要求已知类别的均值和方差,并且它们都通过检查类别均值和目标像素之间的“距离”来进行操作。

基于像素的分类方法受到以下事实的限制:它们不能使用来自其他附近像素的信息。 相反,基于对象的分类方法可以包括其他像素,因此它们也使用空间信息来对项目进行分类。 请注意,“对象”仅指像素的连续区域,而不指该像素区域内是否存在目标对象。

预处理图像数据以进行目标检测

最新且可靠的图像分类系统主要使用对象级分类方案,对于这些方法,必须以特定方式准备图像数据。 需要选择并预处理对象/区域。

在对图像以及该图像内的对象/区域进行分类之前,必须由计算机解释包含该图像的数据。图像需要进行预处理并准备好输入分类算法,这是通过对象检测完成的。这是准备数据和图像以训练机器学习分类器的关键部分。

物体检测是通过 多种方法和技术。 首先,是否存在多个感兴趣对象或单个感兴趣对象都会影响图像预处理的处理方式。 如果只有一个感兴趣的对象,则对图像进行图像定位。 组成图像的像素具有由计算机解释并用于显示正确的颜色和色调的数值。 在感兴趣的对象周围绘制一个称为边界框的对象,这有助于计算机了解图像的哪些部分是重要的以及哪些像素值定义了该对象。 如果图像中有多个感兴趣的对象,则使用一种称为对象检测的技术将这些边界框应用于图像中的所有对象。

另一种预处理方法是图像分割。 图像分割功能通过根据相似特征将整个图像划分为多个片段。 与图像的其他区域相比,图像的不同区域将具有相似的像素值,因此这些像素被分组到与图像内相关对象的形状和边界相对应的图像掩模中。 图像分割帮助计算机隔离图像的特征,这将有助于它对对象进行分类,就像边界框所做的那样,但它们提供了更准确的像素级标签。

完成对象检测或图像分割后,将标签应用于相关区域。 这些标签与构成对象的像素值一起被输入到机器学习算法中,该算法将学习与不同标签相关的模式。

机器学习算法

一旦数据准备好并标记,数据就会被输入到机器学习算法中,该算法对数据进行训练。 我们将介绍一些最常见的机器学习类型 图像分类算法 联络一位教师

K最近邻居

K 最近邻是一种分类算法,它检查最接近的训练示例并查看它们的标签以确定给定测试示例的最可能的标签。 当使用 KNN 进行图像分类时,训练图像的特征向量和标签会被存储,并且在测试期间仅将特征向量传递到算法中。 然后比较训练和测试特征向量的相似性。

基于 KNN 的分类算法非常简单,并且可以轻松处理多个类别。 然而,KNN 平等地基于所有特征计算相似度。 这意味着当提供的图像中只有一部分特征对于图像的分类很重要时,很容易出现错误分类。

支持向量机

支持向量机是一种分类方法,它将点放置在空间中,然后在点之间绘制分割线,根据点落在分割平面的哪一侧将对象放置在不同的类中。 支持向量机能够通过使用称为核技巧的技术进行非线性分类。 虽然 SVM 分类器通常非常准确,但 SVM 分类器的一个重大缺点是它们往往受到大小和速度的限制,随着大小的增加,速度会受到影响。

多层感知器(神经网络)

多层感知器,也称为神经网络模型,是受人脑启发的机器学习算法。 多层感知器由相互连接在一起的各个层组成,就像人脑中的神经元连接在一起一样。 神经网络对输入特征与数据类别的关系做出假设,并且这些假设在训练过程中进行调整。 像多层感知器这样的简单神经网络模型能够学习非线性关系,因此,它们比其他模型更准确。 然而,MLP 模型存在一些值得注意的问题,例如存在非凸损失函数。

深度学习算法 (CNN)

近年来最常用的图像分类算法是卷积神经网络(CNN)。 CNN 是神经网络的定制版本,它将多层神经网络与专用层相结合,能够提取与对象分类最重要且相关的特征。 CNN 可以自动发现、生成和学习图像特征。这大大减少了手动标记和分割图像以准备机器学习算法的需要。它们还比 MLP 网络有优势,因为它们可以处理非凸损失函数。

卷积神经网络因其创建“卷积”而得名。 CNN 的工作原理是采用过滤器并将其滑过图像。 您可以将其视为通过可移动的窗口查看景观的各个部分,只关注在任何时间通过窗口可以看到的特征。 过滤器包含与像素本身的值相乘的数值。 结果是一个新的帧或矩阵,其中充满了代表原始图像的数字。 对于选定数量的滤波器重复此过程,然后将帧连接在一起形成比原始图像稍小且不太复杂的新图像。 一种称为池化的技术用于仅选择图像中最重要的值,目标是卷积层最终提取图像中最显着的部分,这将有助于神经网络识别图像中的对象。

卷积神经网络 由两个不同的部分组成。 卷积层提取图像的特征并将其转换为神经网络层可以解释和学习的格式。 早期的卷积层负责提取图像的最基本元素,例如简单的线条和边界。 中间的卷积层开始捕获更复杂的形状,例如简单的曲线和角。 后来的更深的卷积层提取图像的高级特征,这些特征被传递到 CNN 的神经网络部分,也是分类器学习的内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/347224.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开门预警系统技术规范(简化版)

开门预警系统技术规范(简化版) 1 系统概述2 预警区域3 预警目标4 功能需求5 功能条件6 显示需求7 指标需求 1 系统概述 开门预警系统(DOW),在自车停止开门过程中,安装在车辆的传感器(如安装在车…

Polar Web【简单】PHP反序列化初试

Polar Web【简单】PHP反序列化初试 Contents Polar Web【简单】PHP反序列化初试思路EXP手动脚本PythonGo 运行&总结 思路 启动环境,显示下图中的PHP代码,于是展开分析: 首先发现Easy类中有魔术函数 __wakeup() ,实现的是对成员…

【设计模式深度剖析】【2】【行为型】【命令模式】| 以打开文件按钮、宏命令、图形移动与撤销为例加深理解

👈️上一篇:模板方法模式 | 下一篇:职责链模式👉️ 设计模式-专栏👈️ 文章目录 命令模式定义英文原话直译如何理解呢? 四个角色1. Command(命令接口)2. ConcreteCommand(具体命令类&…

《精通ChatGPT:从入门到大师的Prompt指南》第7章:创意写作

第7章:创意写作 7.1 角色设定 角色设定是创意写作中最关键的环节之一。成功的角色设定能够让读者对故事产生共鸣,使故事更加生动有趣。角色不仅仅是情节发展的载体,更是读者情感的投射对象。因此,深入了解如何设定一个生动而有深…

攻防世界--杂项misc-2017_Dating_in_Singapore

题目信息 题目描述和附件分别是一串数字和新加坡日历,数字中间有短线-连接,刚好分成了12个字段。猜想对应了12个月 01081522291516170310172431-050607132027262728-0102030209162330-02091623020310090910172423-02010814222930-0605041118252627-020…

Git介绍及应用

1.简介 Git是一个分布式版本控制器,通常用来对软件开发过程中的源代码文件进行管理。通过Git仓库来存储和管理这些文件,Git仓库分为两种: 本地仓库:开发人员自己电脑上的Git仓库远程仓库:远程服务器上的Git仓库 2.执行流程 3.Git代码托管服务…

思维导图-vb.net开发带进度条的复制文件夹功能c#复制文件夹

你们谁写代码会用流程图来做计划,或者写项目总结报告? .net带进度条复制文件夹 方案 列出所有子文件夹,再创建,复制文件 大文件可以单独做进度条 缺点:设计会更复杂 直接…

React实现在线预览word报告/本地选择报告预览

标题使用的核心技术点是docx-preview,读取到文件的File对象,用File去做文件展示,这里是才用将文件转base64字符串存储到localStorage中 在线预览word报告且包含word样式 下载需要使用的min.js文件进项目的public目录中(上zip已包…

Docker未授权访问漏洞详解

目录 Docker简介 Docker未授权访问漏洞原理 Docker未授权访问漏洞复现 环境搭建 漏洞利用 写入密钥免密登录 写入计划任务反弹shell fofa实战 Docker简介 Docker是一个开源的引擎,可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。 Docke…

【three.js】光源对物体表面影响

目录 一、受光照影响材质 二、光源简介 2.1 点光源 光源位置 点光源辅助观察 完整代码,粘贴即用 2.2 环境光 2.3 平行光 平行光辅助观察 实际生活中物体表面的明暗效果是会受到光照的影响,比如晚上不开灯,你就看不到物体,灯光比较暗,物体也比较暗。在threejs中,…

精妙无比的App UI 风格

精妙无比的App UI 风格

ModbusTCP、TCP/IP都走网线,一样吗?

在现代通信技术中,Modbus/TCP和TCP/IP协议是两种广泛应用于工业自动化和网络通信领域的协议。尽管它们都运行在网线上,但它们在设计、结构和应用场景上有着明显的区别。 Modbus/TCP协议是什么 Modbus/TCP是一种基于TCP/IP的应用层协议,它是Mo…

LeetCode 算法:螺旋矩阵c++

原题链接🔗:螺旋矩阵 难度:中等⭐️⭐️ 题目 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&…

调用华为API实现语音合成

目录 1.作者介绍2.华为云语音合成2.1 语音合成介绍2.2 华为语音合成服务2.3 应用场景 3. 实验过程以及结果3.1 获取API密钥3.2 调用语音合成算法API3.3 实验代码3.4 运行结果 1.作者介绍 袁斌,男,西安工程大学电子信息学院,2023级研究生 研究…

怎么解决常见的泄密途径问题,源代码防泄密的方法

在当今发展潮流中,网络信息安全隐患变得越来越突出,信息泄漏事件时有发生。我们都知道,电子文件非常容易复制,可以通过各种途径如邮件、光盘、U盘、网络存储等进行传播。企事业单位的机密文件、研发源代码、图纸等核心技术机密资料…

【数据结构初阶】 --- 单链表

关于链表你应该先了解这些 下图描述了物理模型和逻辑模型,大多数常见的其实是逻辑模型,但这对初学者或者掌握不扎实的同学不太友好,所以这里我重点讲解物理模型,当了解了这些细节,以后做题或是什么就直接画逻辑模型就…

经典文献阅读之--FlashOcc(快速且内存高效的占用预测模块)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时&…

基础IO(下)

基础IO 1. 磁盘1.1 磁盘的物理结构1.2 磁盘的逻辑抽象结构 2. 理解文件系统2.1 前言2.2 文件系统2.3 文件的新建和删除2.4 文件的查找2.5 理解软硬链接 3. 动态库和静态库3.1 生成静态库3.2 生成动态库3.3 动态库加载 实际上,大部分文件都不是被打开的(当…

Catia装配体零件复制

先选中要复制的零件 然后选中复制到的父节点才可以。 否则 另外一种方法是多实例化

Jmeter07:函数

1 Jmeter组件:函数 1.1 是什么? 是程序中的封装单元(最小的),封装一些功能实现 1.2 为什么? 优点1:易读 易维护 优点2:实现功能复用 1.3 怎么用? 流程: 1&…