神经网络(深度学习,计算机视觉,得分函数,损失函数,前向传播,反向传播,激活函数)

目录

 一、神经网络简介

二、深度学习要解决的问题 

三、深度学习的应用

四、计算机视觉

五、计算机视觉面临的挑战

 六、得分函数

七、损失函数

八、前向传播

九、反向传播

十、神经元的个数对结果的影响

十一、正则化与激活函数


 一、神经网络简介

        神经网络是一种有监督的机器学习算法,神经网络当成一种特征提取的方法,神经网络追求是什么样的的权重参数适合当前任务。        

二、深度学习要解决的问题 

        机器学习流程:数据获取,特征工程,建立模型,评估与应用。最重要的是特征工程,前面学了那么多算法,归根到底,模型都是根据特征来进行训练。

        特征工程的作用:

                数据特征决定了模型的上限。

                预处理和特征提取是最核心的。

                算法和参数决定了如何去逼近这个上限。

        机器学习问题:人工选择数据,人工选择特征,人工选择算法,人工选择结果。(说白了就是实现了数学公式)

        深度学习,神经网络:解决了特征工程的问题

         对于文本,图像数据去提取特征难,放在深度学习,神经网络里,就很好解决。

        可以把深度学习,神经网络当作一个黑盒子,它能自动的去提取特征(它认为的最合适的特特征)它是真正有学习过程的,它可以真正的去学习什么样的特征是最合适的,有了特征,当成输入+线性回归、逻辑回归、SVM等等都行。

三、深度学习的应用

        最常见、最广泛的应用是计算机视觉(人脸识别等)、自然语言处理(ChatGpt)。

        那么是否也存在缺点呢?看如下图

        

        随着数据规模的提升,计算量太大,参数多,速度慢,比如手机端人脸识别,会出现识别延时的现象。

        提一下数据生成:对于庞大的训练数据,数值数据可以采用一些数学工具包生成,对于图像数据可以对图像进行翻转、镜面变换、平移等等,容易得到。

四、计算机视觉

                最经典的图像分类任务。我们看看在计算机里图像是怎么表示的吧。

        例如:一张300*100*3的猫咪图像 300:High 100:wight 3:三个颜色通道RGB

 它是由一个一个像素点组成的,每个像素点的值0~255,值越大颜色越浅。它被表示为三维数组的形式。

        用数值形式表示如:

\begin{bmatrix} R & G &B \\ .& .& .\\ .& .& .\\ . & . & . \end{bmatrix}

五、计算机视觉面临的挑战

        拍摄图像有照射角度,形状改变,部分遮蔽,背景混入的现象。

        机器学习的常规套路:

                收集数据并给定标签

                训练一个分类器

                测试评估

        我们用KNN算法来做图像分类任务

        K近邻算法:算法流程

                1. 计算以知类别数据集中的所有点与当前的距离

                2. 按照距离依次排序

                3. 选取与前点距离最小的K个点

                4. 确定前K个点所在类别的概率

                5. 返回前K个点出现的频率最高的类别作为当前点预测分类

        数据集:CIFAR-10数据库,10类标签,5000个训练数据,10000个测试数据,大小为32*32*3

        用KNN来进行图像分类

                距离的选择:L1 distance : d1(I_1,I_2)=\sum_p\left | I_1^p-I_2^p \right |(像素点对应相减)

                图像距离计算方式:

                一个栗子:

                测试结果:部分还可以,没有分类对的图像,问题出现在哪里???

                为什么K近邻算法不能用图像分类:

                        我们关注的是主体(主要成分),而背景主导是一个最大的问题,那么如何才能让机器学习到那些是重要的成分呢?

 六、得分函数

                线性函数(得分函数)

                从输入-->输出的映射

                

七、损失函数

        假设分三类:cat,dog,ship

        计算方法:

                 

        决策边界,多维数据,多组权重参数构成了决策边界

        如何衡量分类结果呢?

                上图所示:结果的得分值有着明显的差异,我们需要明确的指导模型表示当前效果有多好或是有多坏!!!

               引入损失函数L_i=\sum_{j\neq y_i}max(0,s_j-s_{y_i}+1)

                其中:s_j表示错误类别得分,s_{y_i}表示正确类别的得分,1表示容忍程度,即正确类别的得分至少比错误类别高1

        例如有三个测试样本:

正确类别
预测类别得分(样本1)猫(样本2)车(样本3)蛙
cat3.21.32.2
car5.14.92.5
frog-1.72.0-3.1

                 则损失值:

                        L_1 = max(0,5.1-3.2+1)+max(0,-1.7-3.2+1)=2.9

                        同理:L_2=0,L_3=10.9

                由损失值可以看出样本2是分类正确的

                

        如果损失函数的值相同,那么意味着两个模型一样吗??

        假设:

        f(x,w)=Wx,L=\frac{1}{N}\sum_{i=1}^{N}max(0,f(x_i;w)_j-f(x_i;w)y_i+1)

        输入数据:x=[1,1,1,1]

        模型A:w_1=[1,0,0,0]

        模型B:w_2=[0.25,0.25,0.25,0.25]

        得到:w_1^Tx=w_2^Tx=1,L_1=L_2

        一样吗??显然是不一样的,可以看出来模型A只是利用了第一个参数,而模型B均等利用4个参数,B显然更好,那么怎么去区分这两个模型呢??或者说怎么去让模型A变得平滑,让它不那么极端呢??

        答案是正则化。即加入正则化惩罚项。

        即:L=\frac{1}{N}\sum_{i=1}^{N}max(0,f(x_i;w)_j-f(x_i;w)y_i+1)+\lambda R(w)

        正则化惩罚项:R(w)=\sum_k\sum_lw_{k,l}^2

        目的:神经网络过于强大,几乎90%的神经网络都会过拟合,不要让它太复杂,过拟合的模型是没用的。

        softmax分类器

                现在啊,我们得到是一个输入的得分值,损失函数也是基于得分值的损失。但是直接给我们一个概率值岂不是更好!!!那么如何把一个得分值转化成一个概率值呢?

        即sigmoid函数:

           归一化:p(Y=k/x=x_i)=\frac{e^{ij}}{\sum e^{ij}} \, where \,s=f(x_i,w)

            计算损失值:L_i =-logp(Y=y_i|x=x_i)

                

cat3.2

---->

exp

24.5

--------->

normalize

0.13
car5.1164.00.87
frog-1.70.180.00
得分放大归一化概率

                loss: l_i=-log(0.13)=0.87

八、前向传播

        前向传播:一步一步的往前走,得到概率值,损失值

        

        前向传播很好理解。

        经过前向传播得到是损失值,但是怎么更新(参数,权重)模型呢??

        这就交给反向传播了。

九、反向传播

        经过前面的学习我们知道在做线性回归时,我们让目标函数

J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{i})-y^{i})^2

        即损失函数最小化

        经过求解梯度,更新参数theta

          \frac{\partial J}{\partial \theta_i}=-\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_i^j

        \theta_j'=\theta_j+\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{i})-y^{i})x_i^j

        那么放在神经网络也是用梯度下降的方法,具体是怎么样实现的呢?

        举一个例子:

                

                f(x,y,z)=(x+y)z

let \, q=x+y \, \vdots \, \frac{\partial q}{\partial x}=1\, \frac{\partial q}{\partial y}=1

f=qz\, \vdots\frac{\partial f}{\partial q}=z\, \, \frac{\partial q}{\partial z}=q

want:\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z}

\frac{\partial f}{\partial x}=\frac{\partial f}{\partial q}\cdot \frac{\partial q}{\partial y}=z

        如上所示:计算梯度需要逐层计算(链式法则)

        可以一个一个计算,也可以一大块一大块计算

十、神经网络架构细节

        层次结构:4层

        神经元:9

        全连接:每一层都与下一层全部连接

        我们看到中间的箭头,实际是有箭头的吗???哈哈哈哈,并不是,中间就是权重参数矩阵,输入层输入两个特征,经过W1矩阵变换到5个特征,怎么变得呢??黑盒子!!!然后经过W2变换成4个特征,最后输出。

        非线性变化:之前我们提到过神经网络是一层一层的,那么:

[(x_1w_1)w_2]w_3 \neq xw_1w_2w_3

        为啥呢??即在每一层后面都加有非线性变换,可以联想到之前的将得分值转化为概率值与之类似。

        其基本结构:f=w_2Rule(w,x)

        继续堆叠一层: f=w_3Rule(w_2Rule(w,x))

        神经网络的强大之处在于,用更多的参数来拟合复杂的数据

        参数多到百万级都是小儿科,但是参数越多越好吗??

十、神经元的个数对结果的影响

        并不是哦!!!过满则亏。

        大家想一下,增加一个一个神经元九就了一组参数。

        还是那句话,神经网络非常容易过拟合!!!!!!

十一、正则化与激活函数

        正则化的作用:

                惩罚力度对结果影响

                防止过拟合

        激活函数:

                非常重要的一部分

                常用的激活函数(Sigmoid,Relu,Tanh)非线性变换(把得分值转换为概率值)

                   

        激活函数的对比

        sigmoid:

         

        我们看到当数值偏大的时候,比如x=6时,求导后值几乎为零,梯度消失,如果向后传播, 对后面的影响几乎没有,所以这是存在限制的。

        当今更多使用Relu这个激活函数:

        

        求导值不变。

十二、神经网络解决过拟合的方法

        数据预处理,标准化

        参数初始化,通常我们都使用随机策略来进行参数初始化

        正则化

        DROP—OUT(自损八百)

                思想:让效果消弱

                

         即在某次正反向传播中,每一层随机杀死一部分神经元,不让参与。相当于一个比例:30%,每次让30%的神经元不参与训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/280577.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyExcel模板填充list时按第一行格式合并单元格(含分页线设置)

前言: 在使用easyExcel填充list时,第一行存在合并单元格的情况下,后面使用forceNewRow()填充的行却没有合并样式。 模板: 填充后: 自定义拦截器: 根据官方文档的提示,我们需要自定义拦截器来…

【Redis】Redis常见原理和数据结构

Redis 什么是redis redis是一款基于内存的k-v数据结构的非关系型数据库,读写速度非常快,常用于缓存,消息队列、分布式锁等场景。 redis的数据类型 string:字符串 缓存对象,分布式ID,token,se…

MySQL分组查询与子查询 + MySQL表的联结操作

目录 1 MySQL分组查询与子查询 1.1 数据分组查询 1.2 过滤分组 1.3 分组结果排序 1.4 select语句中子句的执行顺序 1.5 子查询 2 MySQL表的联结操作 2.1 关系表 2.2 表联结 2.3 笛卡尔积 2.4 内部联结 2.5 外联结 2.6 自联结 2.7 组合查询 1 MySQL分组查询与子查询…

树莓派夜视摄像头拍摄红外LED灯

NoIR相机是一种特殊类型的红外摄像头,其名称来源于"No Infrared"的缩写。与普通的彩色摄像头不同,NoIR相机具备红外摄影和低光条件下摄影的能力。 一般摄像头能够感知可见光,并用于普通摄影和视频拍摄。而NoIR相机则在设计上去除了…

基于BusyBox的imx6ull移植sqlite3到ARM板子上

1.官网下载源码 https://www.sqlite.org/download.html 下载源码解压到本地的linux环境下 2.解压并创建install文件夹 3.使用命令行配置 在解压的文件夹下打开终端,然后输入以下内容,其中arm-linux-gnueabihf是自己的交叉编译器【自己替换】 ./config…

【云原生 • Kubernetes】认识 k8s、k8s 架构、核心实战

文章目录 Kubernetes基础概念1. 是什么2. 架构2.1 工作方式2.2 组件架构 3. k8s组件创建集群步骤一 基础环境步骤二 安装kubelet、kubeadm、kubectl步骤三 主节点使用kubeadm引导集群步骤四 副节点加入主节点步骤五 部署dashboard Kubernetes核心实战1. 资源创建方式2. Namespa…

Elasticsearch - Docker安装Elasticsearch8.12.2

前言 最近在学习 ES,所以需要在服务器上装一个单节点的 ES 服务器环境:centos 7.9 安装 下载镜像 目前最新版本是 8.12.2 docker pull docker.elastic.co/elasticsearch/elasticsearch:8.12.2创建配置 新增配置文件 elasticsearch.yml http.host…

EFcore的实体类配置

1 约定配置 约定大于配置,框架默认了许多实体类配置的规则,在约定规则不满足要求时,可以显示地定义规则 1 数据库表明在不指定的情况下,默认使用的是数据库上下文类【DBContext】中DbSet 的属性名; 2 数据库表列的名字…

笔记本8代i5和台式机12代i5的性能比较

一、 台式机12代i5 二、笔记本8代i5 在多核性能上差不多是2.4倍,所以跑大一点的Matlab或者别的程序,用台式机,后边实验室能用上超多核服务器另说。

SpringBoot(整合MyBatis + MyBatis-Plus + MyBatisX插件使用)

文章目录 1.整合MyBatis1.需求分析2.数据库表设计3.数据库环境配置1.新建maven项目2.pom.xml 引入依赖3.application.yml 配置数据源4.Application.java 编写启动类5.测试6.配置类切换druid数据源7.测试数据源是否成功切换 4.Mybatis基础配置1.编写映射表的bean2.MonsterMapper…

JavaScript进阶:js的一些学习笔记-this指向,call,apply,bind,防抖,节流

文章目录 1. this指向1. 箭头函数 this的指向 2. 改变this的指向1. call()2. apply()3. bind() 3. 防抖和节流1. 防抖2. 节流 1. this指向 1. 箭头函数 this的指向 箭头函数默认帮我们绑定外层this的值,所以在箭头函数中this的值和外层的this是一样的箭头函数中的…

springcloud-Eureka注册中心

如果你要理解这个技术博客博客专栏 请先学习以下基本的知识: 什么是微服务什么是服务拆分什么是springcloud Springcloud为微服务开发提供了一个比较泛用和全面的解决框架,springcloud继承了spring一直以来的风格——不重复造轮子,里面很多的…

PyTorch 深度学习(GPT 重译)(六)

十四、端到端结节分析,以及接下来的步骤 本章内容包括 连接分割和分类模型 为新任务微调网络 将直方图和其他指标类型添加到 TensorBoard 从过拟合到泛化 在过去的几章中,我们已经构建了许多对我们的项目至关重要的系统。我们开始加载数据&#xf…

用css滤镜做颜色不同的数据卡片(背景图对于css滤镜的使用)

<template> <div class"xx_modal_maincon"><div class"xx_model_bt">履约起始日至计算日配额及履约情况</div><el-row><el-col :span"6"><div class"xx_modal_mod"><div class"mod…

【K3s】在 AWS EC2 上运行生产 K3s 集群

【K3s】在 AWS EC2 上运行生产 K3s 集群 本文将介绍如何在 AWS EC2 上运行 K3s。您将创建一个 EC2 实例并在 AWS 上运行单节点 K3s 集群。 自托管的 K3s 允许您在裸金属上运行 Kubernetes,并应用较小、低资源工作负载的原则。哦,你还可以控制你的控制平面。这有点像逃离托管…

基于Vue.js和D3.js的智能停车可视化系统

引言 随着物联网技术的发展&#xff0c;智能停车系统正逐渐普及。前端作为用户交互的主要界面&#xff0c;对于提供直观、实时的停车信息至关重要。 目录 引言 一、系统设计 二、代码实现 1. 环境准备 首先&#xff0c;确保您的开发环境已经安装了Node.js和npm。然后&…

代码学习第24天----回溯算法

随想录日记part24 t i m e &#xff1a; time&#xff1a; time&#xff1a; 2024.03.10 主要内容&#xff1a;回溯算法在代码学习中尤其重要&#xff0c;所以今天继续加深对其的理解&#xff1a;1&#xff1a;递增子序列 &#xff1b;2.全排列 &#xff1b;3.全排列II 491.递…

数学建模(熵权法 python代码 例子)

目录 介绍&#xff1a; 模板&#xff1a; 例子&#xff1a;择偶 极小型指标转化为极大型&#xff08;正向化&#xff09;&#xff1a; 中间型指标转为极大型&#xff08;正向化&#xff09;&#xff1a; 区间型指标转为极大型&#xff08;正向化&#xff09;&#xff1a…

【Spring Cloud】微服务通信概述

SueWakeup 个人主页&#xff1a;SueWakeup 系列专栏&#xff1a;学习技术栈 个性签名&#xff1a;人生乏味啊&#xff0c;我欲令之光怪陆离 本文封面由 凯楠&#x1f4f7; 友情赞助播出 目录 前言 1. Dubbo&#xff08;Spring Cloud Alibaba&#xff09;和 Spring Cloud 的适…

python爬虫基础实验:通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息

Task1 读取网站主页整个页面的 html 内容并解码为文本串&#xff08;可使用urllib.request的相应方法&#xff09;&#xff0c;将其以UTF-8编码格式写入page.txt文件。 Code1 import urllib.requestwith urllib.request.urlopen(https://dblp.dagstuhl.de/db/conf/kdd/kdd202…