Neural networks 神经网络

发展时间线

基础概念

多层神经网络结构

神经网络中一个网络层的数学表达

TensorFlow实践

创建网络层

神经网络的创建、训练与推理

推理

推理可以理解为执行一次前向传播

前向传播

前向传播直观数学表达

前向传播直观数学表达的Python实现

前向传播向量化实现

相关数学知识

向量点积(内积)示例

矩阵乘法示例

训练

相比前面TensorFlow实践中的步骤简化,这里细化了如何compile和fit模型。

TensorFlow实践

底层原理

1. 明确逻辑回归表达式及激活函数

2. 明确损失函数及成本函数

3. 开始训练,并最小化成本函数

激活函数

为什么需要激活函数

当你网络中每一层都不使用激活函数(即每一层都使用线性激活函数),根据下图的推导会发现不管你有几层最终的输出还是跟输入是线性的,因此最终实现的都是一个线性回归,而很多问题不是线性回归能够描述的。

常见激活函数

前面所有例子使用的激活函数都是sigmod,但是实际还有其他可替代的,比如下面的ReLU(Rectified Linear Unit),不需要关注全称

输出层激活函数选择

根据你要输出的性质选择,一般不存疑

隐藏层激活函数选择

现在绝大多数情况下会选择ReLU作为隐藏层的激活函数,两个原因:

1. 计算量更小

2. 只有 z < 0 时曲线的梯度(斜率)很小(为0),而sigmod函数在两侧梯度都很小,收敛更慢

多类分类:SoftMax回归

前面举的例子都是解决二分类问题,非0即1,但是实践中经常有多类分类问题,比如要识别0-9的数字

数值稳定的回归

多标签分类

跟多类分类要区分开,多类分类是指n类选命中哪1类,多标签分类是指n个标签命中其中m个标签,每个标签是二值

梯度下降优化算法:Adam算法

adaptive moment estimation(自适应矩估计),该算法是梯度下降的优化算法,效率更高,课程没有讲Adma算法的具体实现,但是实现的大致原理是:动态调整学习率α,梯度下降过程中,多次朝同一个方向下降的时候放大学习率,来回震荡时缩小学习率

神经网络层类型(layer type)

全连接层(dense layer)

每个神经元的输入是前一层所有输出(activation outputs)。

卷积层(convolutional layer)

每个神经元的输入是前一层部分输出。在某些场景会比全连接层效果更好,不过没讲分别适用的场景

为什么需要卷积层:

1. 减少计算量,加快计算速度

2. 减少训练需要的样本量,更不容易出现过拟合

反向传播

将计算损失的过程生成一个计算图,前向传播可以计算各个中间变量以及最终损失,而通过反向传播则可以通过导数的链式计算,逐步获取到J对所有参数的偏导数在该训练数据下的值

应用机器学习的建议

模型评估

数据集中圈出大部分数据用于训练并记录为训练集,留出少部分进行test并记录为测试集。可以分别对测试集和训练集计算最终模型的误差,注意计算误差的时候不再计算正则化项。

分类问题中也可以使用下图的匹配数量计算训练集和测试集的误差

训练集/交叉验证集/测试集 评估误差

偏差与方差(bias/variance)

作用

J_{train}(\vec{w}, b) 很高、J_{cv}(\vec{w}, b) \approx J_{train}(\vec{w}, b),说明高偏差,拟合度不足

J_{train}(\vec{w}, b)很低、J_{cv}(\vec{w}, b) 很高,说明高方差,过拟合

J_{train}(\vec{w}, b) 很高、J_{cv}(\vec{w}, b) \gg J_{train}(\vec{w}, b),说明高偏差、更高方差,说明在部分数据上过拟合,部分数据拟合不足

正则化对偏差/方差的影响

1. λ 接近 0 时,相当于没有正则化,会产生过拟合

2. λ 接近无穷大时,相当于w稍微有值

确定模型的基线水平

你需要将 J_{train}(\vec{w}, b)J_{cv}(\vec{w}, b) 与基线水平对比差距以判断偏差与方差,而不是根据他们的绝对值判断偏差与方差。确定基线水平有以下几种方式

1. 人类表现水平

2. 竞品/同类算法表现水平

3. 基于经验猜测目标水平

学习曲线

因为随着加入的训练数据变多,拟合越来越难满足所有数据,所以 J_{train}(\vec{w}, b) 逐步增大,而 J_{cv}(\vec{w}, b) 逐渐减小,但还是会大于 J_{train}(\vec{w}, b)

高偏差

高偏差情况下,J_{train}(\vec{w}, b) 和 J_{cv}(\vec{w}, b) 都高于基线水平,即使增加数据集也不能缓解,所以增加数据集规模没有作用

高方差

高方差情况下,基线水平处于 J_{train}(\vec{w}, b) 和 J_{cv}(\vec{w}, b) 之间,增加数据集大小可以降低 J_{cv}(\vec{w}, b),即可以提高模型性能

如何优化模型性能

经过合适的正则化之后的更大的模型通常表现要比更小的模型更好或者相仿,但是相应地会增加训练和推理的成本

机器学习开发流程

误差分析

通过对交叉验证集中预测错误的数据,抽样出合理数量的数据,对这些误差数据进行归类分析,将注意力集中到高频出现的问题上,以确定下一步要优化的优先级并针对高优优化类别分析改进方案

如何添加训练数据
收集更多数据

增加误差分析中占比比较多的分类的数据,可以有效提高模型性能

数据增强(data augmentation)

主要应用于图像、音频领域,对已有的训练数据做一定的变换(放大、所有、旋转、失真)作为新的同标签训练数据,提高模型性能

数据合成

基本上也只是用于计算机视觉,很少用于其他领域。例如想训练文本识别模型,可以在电脑上使用不同字体、不同颜色、不同对比度生成文本作为训练集

迁移学习
概念

迁移学习是指复用其他已经经过训练的模型参数和结构,然后替换掉输出层,再基于你自己的训练集进行再训练。此时你复用的模型成为预训练(pre training)模型,而再训练过程成为微调(fine tuning)。这使得你可以站在巨人的肩膀上实现你自己的模型功能,感谢这些乐于分享自己训练好的模型的人吧,有机会你也可以尝试回馈社区。

微调也有两种方式:

1. 你自己的数据集比较小,只微调输出层参数

2. 你自己的数据集比较大,可以同时微调隐藏层和输出层的所有参数

示例

比如下图例子,使用其他人训练好的判断图片是否存在猫、狗、骑车、人的模型和参数,替换输出层之后使用数据集训练为识别数字的模型。

什么情况可以进行迁移学习

预训练和微调模型的输入类型必须是相同的。此时每个隐藏层在预训练和微调时可能发挥类似的作用,比如前面的图像识别示例中,可能第一个隐藏层都在检测边,第二个隐藏层在检测角,第三层再检测曲线/形状。

倾斜数据集

示例

罕见病检测中,一种罕见病发病率仅为0.5%,那么即使是一个永远输出y=0的程序,准确率也达到了99.5%,所以这时只用准确率来评判检测模型的性能是不够的

准确率与召回率

两者之间的取舍

使用F1 score(调和平均数 harmonic mean)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7694.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈Redis

2007 年&#xff0c;一位程序员和朋友一起创建了一个网站。为了解决这个网站的负载问题&#xff0c;他自己定制了一个数据库。于2009 年开发&#xff0c;称之为Redis。这位意大利程序员是萨尔瓦托勒桑菲利波(Salvatore Sanfilippo)&#xff0c;他被称为Redis之父&#xff0c;更…

在Qt中实现点击一个界面上的按钮弹窗到另一个界面

文章目录 步骤 1&#xff1a;创建新窗口类步骤 2&#xff1a;设计窗口的 UI步骤 3&#xff1a;设计响应函数 以下是一个完整的示例&#xff0c;展示在Qt中如何实现在一个窗口中通过点击按钮弹出一个新窗口。 步骤 1&#xff1a;创建新窗口类 假设你要创建一个名为 WelcomeWidg…

【大数据】机器学习----------强化学习机器学习阶段尾声

一、强化学习的基本概念 注&#xff1a; 圈图与折线图引用知乎博主斜杠青年 1. 任务与奖赏 任务&#xff1a;强化学习的目标是让智能体&#xff08;agent&#xff09;在一个环境&#xff08;environment&#xff09;中采取一系列行动&#xff08;actions&#xff09;以完成一个…

攻防世界bad_python

文件名pyre.cpython-36.pyc&#xff0c;说明是在python3.6环境下编译的&#xff0c;要把pyc反编译成py 但是显示失败了&#xff0c;结合题的名字文件的应该是文件头部被破坏 把第一行改为33 0D 0D 0A 0C 63 4A 63 61 02 00 00 E3 00 00 00 之后就能反编译了&#xff0c;得到源…

网络安全 | F5-Attack Signatures详解

关注&#xff1a;CodingTechWork 关于攻击签名 攻击签名是用于识别 Web 应用程序及其组件上攻击或攻击类型的规则或模式。安全策略将攻击签名中的模式与请求和响应的内容进行比较&#xff0c;以查找潜在的攻击。有些签名旨在保护特定的操作系统、Web 服务器、数据库、框架或应…

Linux的常用指令的用法

目录 Linux下基本指令 whoami ls指令&#xff1a; 文件&#xff1a; touch clear pwd cd mkdir rmdir指令 && rm 指令 man指令 cp mv cat more less head tail 管道和重定向 1. 重定向&#xff08;Redirection&#xff09; 2. 管道&#xff08;Pipes&a…

Qt监控系统辅屏预览/可以同时打开4个屏幕预览/支持5x64通道预览/onvif和rtsp接入/性能好

一、前言说明 在监控系统中&#xff0c;一般主界面肯定带了多个通道比如16/64通道的画面预览&#xff0c;随着电脑性能的增强和多屏幕的发展&#xff0c;再加上现在监控摄像头数量的增加&#xff0c;越来越多的用户希望在不同的屏幕预览不同的实时画面&#xff0c;一个办法是打…

【BUUCTF】October 2019 Twice SQL Injection1及知识点整理

打开题目页面&#xff0c;是一个登陆界面 先进行注册&#xff0c;尝试使用SQL注入看看会返回什么 跳转到登陆界面&#xff0c;我们用刚才注册的登录 显示的界面如下 在这个页面输入SQL注入语句&#xff0c;发现将单引号转义为了\&#xff0c;其他关键字并没有过滤 查看给出的源…

vue3 获取百度天气

获取百度应用key 需要开通百度天气api&#xff0c;进入 控制台 | 百度地图开放平台&#xff0c; 1、创建应用 2、填写名称 3、勾选上天气、百度地图逆地理编码 4、会得到一个key vue获取天气 应该用的是接口获取&#xff0c;这里会有跨域的问题&#xff0c;vue上用的是pro…

[极客大挑战 2019]BuyFlag1

题目 查看页面源码代码 有个pay.php文件打开查看 查看页面源代码&#xff0c;下面是主要代码 <!--~~~post money and password~~~ if (isset($_POST[password])) {$password $_POST[password];if (is_numeric($password)) {echo "password cant be number</br>…

【C++高并发服务器WebServer】-7:共享内存

本文目录 一、共享内存1.1 shmget函数1.2 shmat1.3 shmdt1.4 shmctl1.5 ftok1.6 共享内存和内存映射的关联1.7 小demo 二、共享内存操作命令 一、共享内存 共享内存允许两个或者多个进程共享物理内存的同一块区域&#xff08;通常被称为段&#xff09;。由于一个共享内存段会称…

电力场效应晶体管(电力 MOSFET),全控型器件

电力场效应晶体管&#xff08;Power MOSFET&#xff09;属于全控型器件是一种电压触发的电力电子器件&#xff0c;一种载流子导电&#xff08;单极性器件&#xff09;一个器件是由一个个小的mosfet组成以下是相关介绍&#xff1a; 工作原理&#xff08;栅极电压控制漏极电流&a…

Spring Boot整合JavaMail实现邮件发送

一. 发送邮件原理 发件人【设置授权码】 - SMTP协议【Simple Mail TransferProtocol - 是一种提供可靠且有效的电子邮件传输的协议】 - 收件人 二. 获取授权码 开通POP3/SMTP&#xff0c;获取授权码 授权码是QQ邮箱推出的&#xff0c;用于登录第三方客户端的专用密码。适用…

PHP防伪溯源一体化管理系统小程序

&#x1f50d; 防伪溯源一体化管理系统&#xff0c;品质之光&#xff0c;根源之锁 &#x1f680; 引领防伪技术革命&#xff0c;重塑品牌信任基石 我们自豪地站在防伪技术的前沿&#xff0c;为您呈现基于ThinkPHP和Uniapp精心锻造的多平台&#xff08;微信小程序、H5网页&…

飞牛 fnOS 安装8852be网卡驱动并成功连接

飞牛fnos安装8852be网卡驱动 本人使用的是迷你主机 由于debian内核不识别8852be的网卡&#xff0c;所以需要自行安装网卡驱动 为此搜索了一堆教程 最后折腾过程以及代码如下&#xff0c;建议看完一遍再食用 fnos版本&#xff1a;0.8.36 debian内核版本&#xff1a;6.6.38-tri…

Linux通过docker部署京东矩阵容器服务

获取激活码 将京东无线宝app升级到最新版,然后打开首页,点击号 选择添加容器矩阵,然后获取激活码 运行容器 read -p "请输入你的激活码: " ACTIVECODE;read -p "请输入宿主机的缓存路径: " src;docker rm -f cmatrix;docker run -d -it --name cmatrix …

SQL基础、函数、约束(MySQL第二期)

p.s.这是萌新自己自学总结的笔记&#xff0c;如果想学习得更透彻的话还是请去看大佬的讲解 目录 SQL通用语法SQL数据类型SQL语句分类DDL数据库操作表操作-查询&创建典例表操作-修改字段表操作-改名&删除 DMLDML-插入(添加)数据DML-更新(修改)数据DML-删除数据 DQL基本…

速通 AI+Web3 开发技能: 免费课程+前沿洞察

AI 正以前所未有的速度重塑各行各业&#xff0c;从生成式模型到大规模数据处理&#xff0c;AI 逐渐成为核心驱动力。与此同时&#xff0c;Web3 去中心化技术也在重新定义信任、交易和协作方式。当这两大前沿技术相遇&#xff0c;AI Web3 的融合已不再是理论&#xff0c;而是未…

国产编辑器EverEdit - 输出窗口

1 输出窗口 1.1 应用场景 输出窗口可以显示用户执行某些操作的结果&#xff0c;主要包括&#xff1a; 查找类&#xff1a;查找全部&#xff0c;筛选等待操作&#xff0c;可以把查找结果打印到输出窗口中&#xff1b; 程序类&#xff1a;在执行外部程序时(如&#xff1a;命令窗…

硬件学习笔记--35 AD23的使用常规操作

原理图设计 1&#xff09;新建原理图&#xff0c;File-new-Schematic。相关设置参考&#xff0c;主要包含图纸设置以及常规的工具栏。 PCB的设计 新建PCB&#xff0c;设置相应的规则&#xff08;与原理图中相对应&#xff09;&#xff0c;放到同一个工程中。如果有上一版本的…