机器学习10-卷积和卷积核3

机器学习10-卷积和卷积核3

  • 纹理表示
  • 卷积神经网络
    • 全链接神经网络的瓶颈
    • 卷积网络中的卷积操作
      • 特征响应图组尺寸计算
  • 池化操作
    • 示例
  • 图像增强
    • 翻转
    • 随机缩放抠图
    • 色彩抖动
    • 其他方案
      • 1. 平移
      • 2. 旋转
      • 3. 拉伸
      • 4. 径向畸变
      • 5. 裁剪

纹理表示

在这里插入图片描述

在这里插入图片描述

如何去表示纹理?

基于卷积核组的纹理表示方法:利用卷积核组提取图像中的纹理基,利用基元的统计信息来表示图像中的纹理。

卷积核组

在这里插入图片描述

1.设计卷积核组
2.利用卷积核组对图像进行卷积操作获得对应的特征响应图组;
3.利用特征响应图的某种统计信息来表示图像中的纹理

在这里插入图片描述
在这里插入图片描述
ri ,哪种边缘信息的统计响应均值越高那么图中这个边缘种类就越多,记录这多个基元的响应图均值就记录了这张图的边缘信息。

在这里插入图片描述
颜色越浅均值越高。

1对应C
2===》A
3===》B

设计重点:
卷积核类型 (边缘条形以及点状)
卷积核尺度(3-6个尺度)
卷积核方向 (6个角度)

在这里插入图片描述

在这里插入图片描述

总结:
1.设计卷积核组;
2. 利用卷积核组对图像进行卷积操作获得对应的特征响应图组;
3.利用特征响应图的某种统计信息来表示图像中的纹理。

卷积神经网络

全链接神经网络的瓶颈

在这里插入图片描述
3072+1,120000+1 还有一个偏置b。全连接神经网络只适合处理小图像,处理大图像的计算量过大,速度会很慢。
如果使用卷积的方式,将图像卷积成几个特征,然后再将特征作为连接网络的输入层,可以大大减少计算量。

在这里插入图片描述
卷积核:

  • 不仅具有宽和高,还具有深度,常写成如下形式:
    宽度×高度×深度
  • 卷积核参数不仅包括核中存储的权值,还包括一个偏置值

卷积网络中的卷积操作

在这里插入图片描述
计算过程:

  • 将卷积核展成一个5x5x3的向量,同时将其覆盖的图像区域按相同的展开方式展成5x5x3的向量
  • 计算两者的点乘。
  • 在点乘的结果上加上偏移量
    数学公式:w^T *x + b
    w为卷积核的权值,b为卷积核的偏置

在这里插入图片描述

卷积神经网络中,卷积核可以按照指定的间隔进行卷积操作,这个间隔就是卷积步长。
在这里插入图片描述
在这里插入图片描述

特征响应图组尺寸计算

给定输入数据矩阵时,影响输出的特征图组尺寸大小的因素:

  • 卷积核的宽、高;
  • 是否采用边界填充操作;
  • 卷积步长;
  • 该层的卷积核个数

在这里插入图片描述

池化操作

在机器学习中,池化(Pooling)操作有以下几个重要作用:

    1. 降维
      池化层通过对输入数据进行下采样,减少数据的维度。例如,最大池化(Max Pooling)会在一个局部区域内选择最大值作为输出,这样可以将输入数据的尺寸缩小,减少后续层的计算量。
    1. 特征不变性
      平移不变性:池化操作使得模型对输入数据的小幅度平移具有不变性。例如,最大池化选择局部区域内的最大值,无论该最大值在局部区域内如何平移,池化结果不变。
      旋转不变性和缩放不变性:一定程度上,池化操作也能使模型对输入数据的小幅度旋转和缩放具有一定的不变性。
    1. 防止过拟合
      池化操作通过减少参数数量和计算量,能够在一定程度上防止模型过拟合。通过降低数据的复杂度,模型更容易学习到数据中的主要特征,而不是记住每个数据点的细节。
    1. 加速训练
      由于池化操作减少了数据的维度,网络中的参数数量也相应减少,这使得训练过程中的计算量减小,从而加速训练过程。
    1. 特征提取
      池化操作可以帮助提取数据中的主要特征。例如,平均池化(Average Pooling)可以提取局部区域内的平均特征,最大池化可以提取局部区域内最显著的特征。

常见的池化方法包括最大池化、平均池化和随机池化。不同的池化方法在不同的场景下有不同的应用效果。
常见的池化操作:
最大池化:使用区域内的最大值来代表这个区域
平均池化: 采用区域内所有值的均值作为代表。
池化层的超参数:池化窗口和池化步长

示例

在这里插入图片描述

图像增强

**存在的问题:**过拟合的原因是学习样本太少,导致无法训练出能够泛化到新数
据的模型。
数据增强: 是从现有的训练样本中生成更多的训练数据,其方法是利用多种能
够生成可信图像的随机变换来增加样本。
数据增强的目标: 模型在训练时不会两次查看完全相同的图像。这让模型能够
观察到数据的更多内容,从而具有更好的泛化能力

翻转

在这里插入图片描述

随机缩放抠图

在这里插入图片描述

以残差网络中的样本增强方法为例
输入要求:224x224的彩色图片
训练阶段:在不同尺度、不同区域随机扣取

1.在[256,480]之间随机选择一个尺寸L
2.将训练样本缩放至短边=L
3.在该样本上随机采样一个224×224的图像区域

测试阶段:按照一套预先定义的方式扣取
1.将图像缩放成5种尺寸:{224,256,384,480,640}
2.对每一个尺度的图像及其镜像图像,分别在其四个角及中间位
置扣取224×224区域,即可获得10个图像

色彩抖动

在这里插入图片描述
操作步骤:
1.利用主成分分析方法提取当前图像的色彩数
据([RGB])的主轴;
2.沿着主轴方向随机采样一个偏移;
3.将偏移量加入当前图像的每个像素。

其他方案

随机联合下述操作
平移
旋转
拉伸
径向畸变
裁剪

以下是对图像增强中涉及的平移、旋转、拉伸、径向畸变和裁剪操作的介绍:

1. 平移

  • 定义:平移是指在图像平面内将图像沿水平或垂直方向移动一定的距离。
  • 作用:可用于调整图像中感兴趣区域的位置,或者模拟图像在不同位置的情况。
  • 实现方法:通过改变图像中每个像素的坐标位置来实现。例如,将图像中每个像素的x坐标增加一个固定值表示水平平移,y坐标增加一个固定值表示垂直平移。

2. 旋转

  • 定义:旋转是将图像围绕一个中心点(通常是图像的中心)按一定角度进行转动。
  • 作用:可用于校正图像拍摄时的倾斜角度,或者为数据集增加旋转变化的数据以提高模型的泛化能力。
  • 实现方法:利用旋转矩阵来计算每个像素在旋转后的新坐标位置。旋转操作通常会导致图像出现空白区域,需要通过插值等方法来填充这些空白区域。

3. 拉伸

  • 定义:拉伸包括水平拉伸和垂直拉伸,是指改变图像在水平或垂直方向上的尺寸比例。
  • 作用:可以模拟图像在不同分辨率或显示比例下的情况,或者用于纠正图像的宽高比。
  • 实现方法:通过改变像素坐标的映射关系来实现。例如,水平拉伸可以通过将x坐标按一定比例缩放来完成。

4. 径向畸变

  • 定义:径向畸变主要出现在广角镜头拍摄的图像中,图像会呈现出从中心向边缘逐渐变形的情况,分为桶形畸变和枕形畸变。
  • 作用:在处理由广角镜头拍摄的图像时,校正径向畸变可以使图像恢复正常的几何形状。
  • 实现方法:通常采用基于相机标定参数的数学模型来进行校正,例如通过计算畸变系数来还原图像。

5. 裁剪

  • 定义:裁剪是指从原始图像中选取一个子区域作为新的图像。
  • 作用:可以去除图像中不相关的部分,聚焦于感兴趣的区域,或者用于调整图像大小。
  • 实现方法:通过指定裁剪区域的左上角坐标和右下角坐标来选择要保留的像素区域,去除其余部分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16540.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

办公用品管理系统需求说明

办公用品管理系统需求说明 1. 系统概述 目标:实现办公用品的全生命周期管理(采购→入库→领用→盘点→报废),提升物资使用效率,降低运营成本 用户角色: 普通员工部门管理员采购专员财务人员系统管理员 …

Shell-基本命令与运算符

1.为什么要进行shell编程? 在Linux系统中,虽然有各种各样的图形化接口工具,但是shell仍然是一个非常灵活的 工具。 Shell不仅仅是命令的收集,而且是一门非常棒的编程语言。 您可以通过使用shell使大量的任务自动化, 因此&#…

Spring基于文心一言API使用的大模型

有时做项目我们可能会遇到要在项目中对接AI大模型 本篇文章是对使用文心一言大模型的使用总结 前置任务 在百度智能云开放平台中注册成为开发者 百度智能云开放平台 进入百度智能云官网进行登录,点击立即体验 点击千帆大模型平台 向下滑动,进入到模型…

【工业安全】-CVE-2022-35555- Tenda W6路由器 命令注入漏洞

文章目录 1.漏洞描述 2.环境搭建 3.漏洞复现 4.漏洞分析 4.1:代码分析  4.2:流量分析 5.poc代码: 1.漏洞描述 漏洞编号:CVE-2022-35555 漏洞名称:Tenda W6 命令注入 威胁等级:高危 漏洞详情&#xff1…

xtuner微调internlm2-chat-1_8b--xtuner中文文档快速上手案例

xtuner微调internlm2-chat-1_8b–xtuner中文文档快速上手案例 设备:百度飞桨免费算力平台16GB显存 1. 安装库 conda conda create --name xtuner-env python3.10 -y conda activate xtuner-env将model的conda保存到本地防止丢失 conda env list #参考env在那个…

智慧出行与车路云一体化政策研究报告

智慧出行政策的发展趋势可以大致划分为三个阶段,与行业发展历程紧密相连。当前,智慧出行政策正逐步进入第三阶段,即技术融合与广泛应用阶段。这一阶段的政策发展趋势将更加注重智慧出行的全面融合和创新应用。比如智能网联技术在智慧出行层面…

民兵装备管理系统DW-S300|支持国产化、自主研发

民兵装备器材管理系统(智装备DW-S301)是一套成熟系统,依托互3D技术、云计算、大数据、RFID技术、数据库技术、AI、视频分析技术对RFID智能仓库进行统一管理、分析的信息化、智能化、规范化的系统。 装备接收与登记 民兵装备抵达仓库时&#…

【STM32系列】利用MATLAB配合ARM-DSP库设计FIR数字滤波器(保姆级教程)

ps.源码放在最后面 设计IIR数字滤波器可以看这里:利用MATLAB配合ARM-DSP库设计IIR数字滤波器(保姆级教程) 前言 本篇文章将介绍如何利用MATLAB与STM32的ARM-DSP库相结合,简明易懂地实现FIR低通滤波器的设计与应用。文章重点不在…

服务器,交换机和路由器的一些笔记

服务器、交换机和路由器是网络中常用的设备,它们的本质区别和联系如下: 本质区别 功能不同 服务器:就像一个大型的资料仓库和工作处理中心,主要用来存储和管理各种数据,比如网站的网页数据、公司的办公文档等&#x…

SpringCloud - Gateway 网关

前言 该博客为Sentinel学习笔记,主要目的是为了帮助后期快速复习使用 学习视频:7小快速通关SpringCloud 辅助文档:SpringCloud快速通关 源码地址:cloud-demo 一、简介 官网:https://spring.io/projects/spring-clou…

【vs2022配置cursor】

Cursor搭配cmake实现C程序的编译、运行和调试的参考地址 cursor下载地址 第一步: 电脑上按爪cmake 第二步:cursor 配置 安装中文 第三步环境变量: D:\Program Files\Microsoft Visual Studio\2022\Professional\VC\Tools\MSVC\14.35.322…

C#/.NET/.NET Core技术前沿周刊 | 第 24 期(2025年1.27-1.31)

前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。 欢迎投稿、推荐…

【STM32】通过HAL库Flash建立FatFS文件系统并配置为USB虚拟U盘MSC

【STM32】通过HAL库Flash建立FatFS文件系统并配置为USB虚拟U盘MSC 在先前 分别介绍了FatFS文件系统和USB虚拟U盘MSC配置 前者通过MCU读写Flash建立文件系统 后者通过MSC连接电脑使其能够被操作 这两者可以合起来 就能够实现同时在MCU、USB中操作Flash的文件系统 【STM32】通过…

用语言模型探索语音风格空间:无需情感标签的情 感TTS

用语言模型探索语音风格空间:无需情感标签的情感TTS 原文:Exploring speech style spaces with language models: Emotional TTS without emotion labels 今天我们要说的是 一种无需情感标签的情感TTS。提出了一个基于FastSpeech2的E-TTS框架&#xff0…

基于Ubuntu2404搭建k8s-1.31集群

k8s 1.31 环境初始化安装Container安装runc安装CNI插件部署k8s集群安装crictl使用kubeadm部署集群节点加入集群部署Calico网络配置dashboard 本实验基于VMware创建的Ubuntu2404虚拟机搭建k8s 1.31版本集群,架构为一主一从,容器运行时使用Container&#…

linux的三剑客和进程处理

Linux三剑客: grep:查找 sed:编辑 awk:分析 grep - 正则表达式 [rootlocalhost ~]# grep ^a hello.txt abc grep - 忽略大小写,还有一些场景需要查询出来对应字符串所在的行号,方便我们快速在文件中定位字…

渗透利器:Burp Suite 联动 XRAY 图形化工具.(主动扫描+被动扫描)

Burp Suite 联动 XRAY 图形化工具.(主动扫描被动扫描) Burp Suite 和 Xray 联合使用,能够将 Burp 的强大流量拦截与修改功能,与 Xray 的高效漏洞检测能力相结合,实现更全面、高效的网络安全测试,同时提升漏…

时间序列分析(三)——白噪声检验

此前篇章: 时间序列分析(一)——基础概念篇 时间序列分析(二)——平稳性检验 一、相关知识点 白噪声的定义:白噪声序列是一种在统计学和信号处理中常见的随机过程,由一系列相互独立、具有相同…

CEF132编译指南 MacOS 篇 - 构建 CEF (六)

1. 引言 经过前面一系列的精心准备,我们已经完成了所有必要的环境配置和源码获取工作。本篇作为 CEF132 编译指南系列的第六篇,将详细介绍如何在 macOS 系统上构建 CEF132。通过配置正确的编译命令和参数,我们将完成 CEF 的构建工作&#xf…

deepseek + kimi 高效生成PPT

1.在deepseek中生成ppt大纲 2.将大纲复制到kimi中生成PPT kimi:https://kimi.moonshot.cn/