PyTorch官网demo解读——第一个神经网络(4)

上一篇:PyTorch官网demo解读——第一个神经网络(3)-CSDN博客

上一篇我们聊了手写数字识别神经网络的损失函数和梯度下降算法,这一篇我们来聊聊激活函数。

大佬说激活函数的作用是让神经网络产生非线性,类似人脑神经元一样,人脑神经元对输入的处理是非线性的。这个说法有些抽象,其实回到我们具体的模型中,激活函数的作用是将输出约束在某个预期的范围内,同时让输入到输出符合我们预期的分布。例如sigmod函数将输出约束在0~1之间,同时如果输入在0周围,输出的差异比较大,如果输入偏离0较多,则输出的差异就比较小。

代码解读

# 激活函数
def log_softmax(x):return x - x.exp().sum(-1).log().unsqueeze(-1)

完整代码请参见第一篇

demo代码中使用了一个自定义的log_softmax激活函数,其实这并不是一个标准的log_softmax函数,标准的log_softmax函数如下(来自PyTorch官网):

对以上公式进行一波推导得出(参见推导原文):

对比上面的代码发现代码里面的实现是没有减去M的,但这样也是可行的。

替换激活函数

单单看上面代码的激活函数有时候不是很好理解为什么这样做,不要激活函数可以吗?用其它激活函数又如何呢?下面我们就动手来捣鼓一下,看看换几个其它的激活函数会怎样?

首先我们把原来用log_softmax作为激活函数的结果跑出来,方便后面做对比:

接下来我们就来替换几个激活函数看看效果。

1. 替换成softmax函数

代码:

def softmax(x):return x.exp() / x.exp().sum(-1).unsqueeze(-1)

运行结果:

分析:

使用softmax函数训练出来的模型精度略逊于log_softmax,但不会相差太多。为什么呢?可以留言发表看法。

2. 替换成sigmod函数

代码:

def sigmod(x):return 1 / (1 + (-x).exp())

运行结果:

分析:

使用sigmod函数作为激活函数训练出来的模型精度只有0.6094,比使用log_softmax差很多,说明sigmod函数不能作为分类问题模型的激活函数

3. 替换成tanh函数

代码:

def tanh(x):p_exp = x.exp()n_exp = (-x).exp()return (p_exp - n_exp) / (p_exp + n_exp)

运行结果:

分析:

使用tanh函数作为模型的激活函数,训练出来精度为0.7188,比使用sigmod函数稍微好点,但比log_softmax还是差太多,所以tanh函数同样不适合作为分类问题模型的激活函数

总结

通过替换不同类型的激活函数,我们可以从侧面看出激活函数对于模型的重要性,也引起我们对激活函数的思考,算是抛砖引玉吧。在其它模型中如何选择激活函数呢?让我们共同学习!

如切如磋,如琢如磨!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/229061.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript中alert、prompt 和 confirm区别及使用【通俗易懂】

✨前言✨   本篇文章主要在于,让我们看几个与用户交互的函数:alert,prompt 和confirm的使用及区别 🍒欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍒博主将持续更新学习记录收获&…

【Matlab】LSTM长短期记忆神经网络时序预测算法(附代码)

资源下载: https://download.csdn.net/download/vvoennvv/88688439 一,概述 LSTM(Long Short-Term Memory)是一种常用的循环神经网络(Recurrent Neural Network,RNN)结构,由于其对于…

轮廓检测与处理

轮廓检测 先将图像转换成二值 gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 灰度图 ret, thresh cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY) # 变为二值,大于127置为255,小于100置为0.使用cv2.findContours(thresh, cv2.RETR_TREE, cv2.…

使用docker轻量化部署snmp agent(SNMPv2访问)

文章目录 服务器环境说明单机部署(非挂载conf文件版)debian:buster-slim容器简介实现步骤创建Dockerfile创建SNMP配置文件 (snmpd.conf)构建Docker镜像运行Docker容器 注意补充复制容器文件到本地容器、镜像操作 单机部署(挂载conf文件版&…

深度理解Flutter:有状态Widget与无状态Widget的详细对比

有状态Widget 什么是有状态Widget (StatefulWidget) 官方解释: 如果用户与 widget 交互,widget 会发生变化,那么它就是 有状态的。 有状态的 widget 自身是可动态改变的(基于State)。 例如用户交互而改变 Widget 的 s…

微服务(11)

目录 51.pod的重启策略是什么? 52.描述一下pod的生命周期有哪些状态? 53.创建一个pod的流程是什么? 54.删除一个Pod会发生什么事情? 55.k8s的Service是什么? 51.pod的重启策略是什么? 可以通过命令kub…

【ArcGIS微课1000例】0085:甘肃省白银市平川区4.9级地震震中位置图件制作

据中国地震台网正式测定,12月31日22时27分在甘肃白银市平川区发生4.9级地震,震源深度10公里,震中位于北纬36.74度,东经105.00度。 文章目录 一、白银市行政区划图1. 县级行政区2. 乡镇行政区二、4.9级地震图件制作1. 震中位置2. 影像图3. 震中三维地形一、白银市行政区划图…

【51单片机系列】DS1302时钟模块

本文是关于DS1302时钟芯片的相关介绍。 文章目录 一、 DS1302时钟芯片介绍二、DS1302的使用2.1、DS1302的控制寄存器2.2、DS1302的日历/时钟寄存器2.3、片内RAM2.4、DS1302的读写时序 三、SPI总线介绍四、DS1302使用示例 一、 DS1302时钟芯片介绍 DS1302是DALLAS公司推出的涓流…

C++入门【17-C++ 字符串】

C 字符串 C 提供了以下两种类型的字符串表示形式: C 风格字符串C 引入的 string 类类型 C 风格字符串 C 风格的字符串起源于 C 语言,并在 C 中继续得到支持。字符串实际上是使用 null 字符 \0 终止的一维字符数组。因此,一个以 null 结尾…

MYSQL 深入探索系列六 SQL执行计划

概述 好久不见了,近期一直在忙项目的事,才有时间写博客,近期频繁出现sql问题,今天正好不忙咱们看看千万级别的表到底该如何优化sql。 案例 近期有个小伙伴生产环境收到了告警,有个6千万的日志表,查询耗时大…

docker应用部署(部署MySql,部署Tomcat,部署Nginx,部署Redis)

Docker 应用部署 一、部署MySQL 搜索mysql镜像 docker search mysql拉取mysql镜像 docker pull mysql:5.6创建容器,设置端口映射、目录映射 # 在/root目录下创建mysql目录用于存储mysql数据信息 mkdir ~/mysql cd ~/mysqldocker run -id \ -p 3307:3306 \ --na…

【Linux】Linux 下基本指令 -- 详解

无论是什么命令,用于什么用途,在 Linux 中,命令有其通用的格式: command [-options] [parameter] command:命令本身。-options:[可选,非必填]命令的一些选项,可以通过选项控制命令的…

Tomcat服务为什么起不来?

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 服务跑在Tomcat下面,有时候会遇到Tomcat起不来的情况。目前为止常遇到的情况有如下几种: 1. Tomcat服务…

TMC2208-LA单轴步进驱动器可替代A4988

TMC2208是由德国TRINAMIC公司推出的步进电机驱动,TMC22XX系列步进电机驱动被广泛应用于各个行业。TMC2208为3D打印、相机、扫描仪和其他自动化设备应用提供集成电机驱动器解决方案。同TMC2208一样在3D打印行业运用较多的还有TMC2209/2130/2660/2225/等。另外还有TMC…

软考网络工程师教程第五版(2018最新版)

软考网络工程师教程第五版(2018最新版) 内容简介 本书是全国计算机技术与软件专业技术资格(水平)考试指定用书。作者在前4版的基础上,根据网络工程师新版大纲的要求,针对考试的重点内容做了较大篇幅的修订,书中主要内容包括数据通信、广域通信网、局域网、城域网、因特网…

【LeetCode】20. 有效的括号(Deque的Stack用法)

今日学习的文章链接和视频链接 leetcode题目地址:20. 有效的括号 代码随想录题解地址:代码随想录 题目简介 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效…

Rust学习笔记005:结构体 struct

在 Rust 中,struct 是一种用于创建自定义数据类型的关键字,它允许你定义和组织数据的结构。struct 可以包含多个不同类型的字段(fields),每个字段都有一个名称和一个类型。 定义结构体 下面是一个简单的例子&#xff…

Java学习路线第五篇:微服务框架(2)

这篇则分享Java学习路线第五part:微服务框架 恭喜你已经成功追到第五章节第二篇啦,要被自己的努力感动到了吧,而这节将承担起学完微服务架构的使命,本使命为单向契约,你可选择YES或者选择YES。 SpringCloudAlibaba …

记chrome的hackbar无法post php://input的问题

尽管hackbar支持post请求体,但是当请求体里面没有等于号的时候,无法post出去,这样如果需要使用php://input绕过waf的时候就没法做。 在开发人员工具的网络里面可以看到不使用等于号的情况下没有荷载。 之后在这里看到了解决方法,…

【揭秘】程序员P1到P10的划分标准,你在哪一级?

程序员从P1到P10的职级体系作用在于为程序员提供了一条清晰的职业发展通道,通过不断提升技术能力和承担更高级别的职责,实现个人成长,并为公司贡献更大价值。 P1、P2:新手村的小伙伴 这两个级别的小伙伴们,可是计算机…