深度学习|CNN卷积神经网络

CNN卷积神经网络

  • 解决的问题
  • 人类的视觉原理
  • 原理
    • 卷积层——提取特征
    • 池化层——数据降维
    • 全连接层——输出结果
  • 应用
    • 图像处理
    • 自然语言处理

解决的问题

在CNN没有出现前,图像对人工智能来说非常难处理。
主要原因:

  • 图像要处理的数据量太大了。图像由像素组成,每个像素又由不同颜色组成,一张1000×1000彩色RGB图像需要的参数是1000×1000×3,需要三百万参数左右,普通神经网络会全用全连接方法来学习整幅图像上的特征,处理起来无论是计算还是存储都需要很大的资源。
  • 很难保留图像特征。一张图像做了一些翻转、旋转、缩放的那个操作的时候,线性向量表示会发生很大的变化,机器没法认为是同一张图。而CNN能够让机器“以视觉的方式看待图像数据”,能利用视觉原理捕获到图像数据中的特征。

人类的视觉原理

深度学习是基于神经网络的实现的,而神经网络是一种模仿生物神经网络结构和功能的数学模型或计算模型。所以深度学习的许多研究成果,离不开对大脑认知原理的研究。CNN就借鉴了人类视觉系统层次结构。

人类的视觉原理:瞳孔摄入原始像素信号,然后大脑皮层某些细胞发现边缘和方向,大脑进行抽象判断特征例如物体形状,最后再进一步做出判断例如物体是个人。

下图是一个大脑进行人脸识别的示例图:
在这里插入图片描述
通过模仿人类的视觉原理的特点,来构造神经网络,低层的识别图像初级特征,若干曾底层特征组成更上一层的特征,最终通过多个层级组合,在顶层做出分类判断。

原理

CNN(Convolutional Neural Network,卷积神经网络)结构可以分为3层:卷积层、池化层和全连接层。

卷积层——提取特征

卷积层(Convolutional Layer) :主要作用是提取特征。

过程:一个过滤器(卷积核,Filter)来过滤图像各个小区域,从而得到各个小区域的特征。卷积层通过卷积核的过滤提取出图片中局部的特征,与人类视觉的特征提取类似。
在这里插入图片描述

实际应用的时候,往往会有很多种卷积核,不同卷积核识别不同的图像模式,也就是不同的特征。

池化层——数据降维

池化层(Max Pooling Layer) :提取某个区域的总结特征,主要作用是下采样(Downsampling),能够数据降维,但是不会损坏识别结果。

原因:做完卷积后的图像依然很大,1000*1000经过10种卷积核后,得到1000×1000×10,维度非常大。通过池化层,能降低数据大小,同时不会对识别结果造成破坏。

池化层函数:是一种统计函数,通常由最大池化(提取区域内的最大特征)、平均池化(提取区域内的平均特征)、混合池化等。

过程:下图采用最大池化策略,对4×4的矩阵按照2×2进行分开,每个2×2取最大值保留下来。
在这里插入图片描述
好处:除了降低参数量,还有个优点就是能够避免过拟合。池化是提取某个区域的总结特征,是对某个区域全局的考量,减少了对具体像素的依赖性,从而降低了过拟合风险。例如某个点其实是噪声,但是池化总结特征的时候被舍弃了,就没有影响;如果不池化,后续调参的时候还会考虑到噪声。

全连接层——输出结果

全连接层(Fully Connected Layer):主要作用是分类。通过卷积层和池化层的出来的特征,需要让全连接层对前面总结好的特征做分类判断。

过程:“全连接”前层网络中的所有神经元都与下一层的所有神经元连接。
在这里插入图片描述

应用

图像处理

  1. 图像分类(Image Classification):判断图片中的物体属于哪一个类别。
    举例:LeNet-5用来对手写字体识别,被认为是最早的CNN模型,作者LeCun Y也被誉为CNN之父。
  2. 图像分割(Image Segmentation):为图片每个对象创造一个像素级别的掩膜。
    分类:语义分割和实例分割。
    语义分割(Semantic Segmentation):为图像中的每个像素分配一个类别,但是同一类别之间的对象不会区分。
    实例分割(Instance Segmetation):实例分割还会对同一类别的对象进行区分。
    下图中左边是语义分割,右边是实例分割:
    在这里插入图片描述
  3. 目标检测(Object Detection):目标定位并且能对目标物体进行分类。
    与目标定位的区别:目标定位通常是针对单个检测对象,而目标检测能检测多个对象。此外,图像分类也是针对单个对象的。
    与图像分割的区别:目标检测和目标定位都只是定位出目标的位置,通常是用一个方框表示,而图像分割则是每个像素属于那个对象,对象的轮廓会更加清楚。
    在这里插入图片描述
  4. 超分辨率(Super-Resolution):提高原有图像的分辨率。

自然语言处理

除了在图像处理领域,CNN 在自然语言处理(Natural Language Processing,NLP)也有应用。

输入:任何矩阵都可以作为CNN的输入,所以输入也可以是词向量组成的矩阵,即矩阵每一行代表一个词,也可以是一个字符。

卷积:过滤器“宽度”通常和输入矩阵的宽度相同,也就是输入的词向量大小;高度可能会有所不同,也每次卷积多少个词。

池化:进一步降低参数量,避免过拟合,例如最大池化、平均池化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/102213.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker数据管理

目录 一、数据卷 二、数据卷容器 三、容器互联 管理 Docker容器中数据主要有两种方式: 数据卷(Data Volumes)数据卷容器(DataVolumes Containers) 一、数据卷 数据卷是一个供容器使用的特殊目录,位于容…

百度云BOS云存储的图片如何在访问时,同时进行格式转换、缩放等处理

前言 之前做了一个图片格式转换和压缩的服务,结果太占内存。后来查到在访问图片链接时,支持进行图片压缩和格式转换,本来想着先格式转换、压缩图片再上传到BOS,现在变成了上传后,访问时进行压缩和格式转换。想了想&am…

GB28181国标平台测试软件NTV-GBC(包含服务器和模拟客户端)

GB28181国标平台测试软件NTV-GBC用于对GB28181国标平台进行测试(测试用例需要服务器软件,服务器软件可以是任何标准的国标平台,我们测试使用的是NTV-GBS),软件实现了设备注册、注销、目录查询,消息订阅、INVITE&#x…

西瓜书之神经网络

一,神经元模型 所谓神经网络, 目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。 M-P神经元 M-P神经元:接收n个输入(…

【C++ 学习 ⑯】- 继承(上)

目录 一、继承的概念和定义 1.1 - 概念 1.2 - 定义 二、继承时的对象内存模型 三、向上转型和向下转型 四、继承时的名字遮蔽问题 4.1 - 有成员变量遮蔽时的内存分布 4.2 - 重名的基类成员函数和派生类成员函数不构成重载 一、继承的概念和定义 1.1 - 概念 C 中的继承…

【Leetcode】移动零

移动零 题目描述算法描述编程代码 链接: 移动零 题目描述 算法描述 编程代码 class Solution { public:void moveZeroes(vector<int>& nums) {//题目要求不可以复制数组&#xff0c;开辟额外空间int dest -1,curr 0;for(;curr < nums.size();curr){if(nums[cu…

问道管理:机器人概念走势活跃,新时达涨停,拓斯达、丰立智能等大涨

机器人概念17日盘中走势活跃&#xff0c;到发稿&#xff0c;拓斯达大涨18%&#xff0c;昊志机电涨近16%&#xff0c;丰立智能涨超13%&#xff0c;步科股份、优德精细涨超10%&#xff0c;新时达涨停&#xff0c;天玑科技、兆龙互联、中大力德涨逾9%。 消息面上&#xff0c;8月16…

Eureka注册中心

全部流程 注册服务中心 添加maven依赖 <!--引用注册中心--> <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-netflix-eureka-server</artifactId> </dependency> 配置Eureka 因为自…

记录:ubuntu20.04+ORB_SLAM2_with_pointcloud_map+ROS noetic

由于相机实时在线运行需要ROS&#xff0c;但Ubuntu22.04只支持ROS2&#xff0c;于是重装Ubuntu20.04。上一篇文章跑通的是官方版本的ORB_SLAM2&#xff0c;不支持点云显示。高翔修改版本支持RGB-D相机的点云显示功能。 高翔修改版本ORB_SLAM2&#xff1a;https://github.com/ga…

算法通关村第九关——中序遍历与搜索树

1 中序遍历和搜索树原理 二叉搜索树按照中序遍历正好是一个递增序列。其比较规范的定义是&#xff1a; 若它的左子树不为空&#xff0c;则左子树上所有节点的值均小于它的根节点的值&#xff1b;若它的右子树不为空&#xff0c;则右子树所有节点的值均大于它的根节点的值&…

Linux TCP编程流程

一、TCP编程流程 TCP 提供的是面向连接的、可靠的、字节流服务。TCP的服务器端和客户端编程流程如下&#xff1a; 1.socket()方法 用来创建一个套接字&#xff0c;有了套接字就可以通过网络进行数据的收发。这也是为什么进行网络通信的程序首先要创建一个套接字。创建套接字时…

GB28181视频监控国标平台EasyGBS角色绑定设备通道的功能优化

GB28181视频监控国标平台EasyGBS是基于国标GB28181协议、支持多路设备同时接入的视频监控/视频云服务平台&#xff0c;支持对多平台、多终端分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。国标GB28181平台EasyGBS可提供视频直播监控、云端录像、云存储、检索回放、智能告警…

基于CentOS搭建私有仓库harbor

环境&#xff1a; 操作系统&#xff1a;CentOS Linux 7 (Core) 内核&#xff1a; Linux 3.10.0-1160.el7.x86_64 目录 安装搭建harbor &#xff08;1&#xff09;安装docker编排工具docker compose &#xff08;2&#xff09;下载Harbor 安装包 &#xff08;3&…

OpenCV 中的色彩空间 (C++ / Python)

在本教程中,我们将了解计算机视觉中使用的流行色彩空间,并将其用于基于颜色的分割。我们还将分享 C++ 和 Python 的演示代码。

THUHCSI人机语音交互实验室9篇论文被语音旗舰国际会议INTERSPEECH录用

2023年ISCA国际语音通讯学会年会&#xff08;2023 Annual Conference of the International Speech Communication Association, INTERSPEECH 2023&#xff09;将于2023年8月20日-24日在爱尔兰都柏林召开&#xff0c;清华大学人机语音交互实验室&#xff08;THUHCSI&#xff09…

SpringCloud教程 | 第四篇:断路器(Hystrix)

在微服务架构中&#xff0c;根据业务来拆分成一个个的服务&#xff0c;服务与服务之间可以相互调用&#xff08;RPC&#xff09;&#xff0c;在Spring Cloud可以用RestTemplateRibbon和Feign来调用。为了保证其高可用&#xff0c;单个服务通常会集群部署。由于网络原因或者自身…

CentOS7安装部署Doris

文章目录 CentOS7安装部署Doris一、前言1.简介2.环境 二、正文1.Doris基础1&#xff09;架构图2&#xff09;通讯端口 2.部署服务器3.安装基础环境1&#xff09;安装JDK 112&#xff09;安装GCC3&#xff09;设置文件句柄数4&#xff09;关闭交换分区&#xff08;swap&#xff…

Ruoyi安装部署(linux环境、前后端不分离版本)

目录 简介 1 新建目录 2 安装jdk 2.1 jdk下载 2.2 解压并移动文件夹到/data/service目录 2.3 配置环境变量 3 安装maven 3.1 进入官网下载最新的maven 3.2 解压并移动文件夹到/data//service目录 3.3 配置环境变量 3.4 配置本地仓库地址与阿里云镜像 4 安装git 4.…

SQL窗口函数

1、什么是窗口函数 窗口函数可以看作是在分区对记录执行操作的函数&#xff0c;窗口函数功能与group by相似&#xff0c;但不会改变记录行数&#xff0c;因此常用于排名&#xff0c;TopN操作。 2.窗口函数语法形式 窗口函数 over ([partition by 字段名] [order by 字段名]) …

java开源 VR全景商城 saas商城 b2b2c商城 o2o商城 积分商城 秒杀商城 拼团商城 分销商城 短视频商城 小程序商城搭建 bbc

​ 1. 涉及平台 平台管理、商家端&#xff08;PC端、手机端&#xff09;、买家平台&#xff08;H5/公众号、小程序、APP端&#xff08;IOS/Android&#xff09;、微服务平台&#xff08;业务服务&#xff09; 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前…