“反向传播算法”过程及公式推导(超直观好懂的Backpropagation)

文章目录

    • 前言(扯犊子)
    • 定义
    • 算法讲解(耐心看)
      • CASE 1(图示讲解,看不太懂没关系,看第二组图)
      • CASE 2(具体计算举例,嫌麻烦的可直接看这个,强烈推荐!!!!!)
    • References

前言(扯犊子)

自己学习机器学习,深度学习也有好长一段时间了,一直以来都想写点有价值的技术博客,以达到技术分享及记录自己成长的目的,奈何之前一直拖着,近来算是醒悟,打算以后不定时写一写博客,也算是作为自己不断学习,不断进步的记录。既然是写博客,希望自己的博客以后要做到“准确、生动、简洁、易懂”的水平,做到对自己、对读者负责,希望大家多交流,共同进步!

言归正传,想起当时自己刚入门深度学习的时候,当时对神经网络的“反向传播”机制不是很理解(这对理解以后的很多概念来说,很重要!!一定要搞懂!!),当时查了很多资料,花费了很多时间,感谢当时所查阅的很多资料的作者,本篇博客就网络上很多优秀的资料和我个人的理解,争取生动、简单地讲解一下BP算法,希望能够帮助到大家。

定义

首先来一个反向传播算法的定义(转自维基百科):反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。 该方法对网络中所有权重计算损失函数的梯度。 这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。(误差的反向传播)

算法讲解(耐心看)

如果去问一下了解BP算法的人“BP算法怎推导?”,大概率得到的回答是“不就是链式求导法则嘛”,我觉得这种答案对于提问题的人来说没有任何帮助。BP的推导需要链式求导不错,但提问者往往想得到的是直观的回答,毕竟理解才是王道。直观的答案,非图解莫属了。
注:下图的确是反向传播算法,但不是深度学习中的backprop,不过backward的大体思想是一样的,毕竟误差没法从前往后计算啊。(在深度学习中操作的是计算图—Computational graph),如果暂时不理解上面那句话,你可以当我没说过,不要紧~(手动?)

下面通过两组图来进行神经网络前向传播反向传播算法的讲解,第一组图来自国外某网站,配图生动形象。如果对你来说,单纯的讲解理解起来比较费劲,那么可以参考第二组图——一个具体的前向传播和反向传播算法的例子。通过本篇博客,相信就算是刚刚入门的小白(只要有一点点高等数学基础知识),也一定可以理解反向传播算法!

CASE 1(图示讲解,看不太懂没关系,看第二组图)

首先拿一个简单的三层神经网络来举例,如下:
在这里插入图片描述

每个神经元由两部分组成,第一部分(e)是输入值权重系数乘积的,第二部分(f(e))是一个激活函数(非线性函数)的输出, y=f(e)即为某个神经元的输出,如下:
在这里插入图片描述

下面是前向传播过程:
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述

到这里为止,神经网络的前向传播已经完成,最后输出的y就是本次前向传播神经网络计算出来的结果(预测结果),但这个预测结果不一定是正确的,要和真实的标签(z)相比较,计算预测结果和真实标签的误差( δ \delta δ),如下:
在这里插入图片描述

下面开始计算每个神经元的误差( δ \delta δ):
在这里插入图片描述
(If propagated errors came from few neurons they are added. The illustration is below: )

在这里插入图片描述

下面开始利用反向传播的误差,计算各个神经元(权重)的导数,开始反向传播修改权重(When the error signal for each neuron is computed, the weights coefficients of each neuron input node may be modified. In formulas below d f ( e ) d e \dfrac {df\left( e\right) }{de} dedf(e) represents derivative of neuron activation function (which weights are modified). ):
在这里插入图片描述
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述

Coefficient η \eta η affects network teaching speed.
到此为止,整个网络的前向,反向传播和权重更新已经完成,推荐参考上面给出的本教程的链接,如果对纯理论讲解较难接受,没关系,强烈推荐第二组图的例子!!!

CASE 2(具体计算举例,嫌麻烦的可直接看这个,强烈推荐!!!!!)

首先明确,“正向传播”求损失,“反向传播”回传误差。同时,神经网络每层的每个神经元都可以根据误差信号修正每层的权重,只要能明确上面两点,那么下面的例子,只要会一点链式求导规则,就一定能看懂!

BP算法,也叫 δ \delta δ算法,下面以3层的感知机为例进行举例讲解。
在这里插入图片描述

上图的前向传播(网络输出计算)过程如下:(此处为网络的整个误差的计算,误差E计算方法为mse)

在这里插入图片描述

上面的计算过程并不难,只要耐心一步步的拆开式子,逐渐分解即可。现在还有两个问题需要解决:

  1. 误差E有了,怎么调整权重让误差不断减小?
  2. E是权重w的函数,何如找到使得函数值最小的w。

解决上面问题的方法是梯度下降算法(简单图示如下),大家如有不太懂的可先行查阅别的资料,只要能达到理解线性回归梯度下降算法的水平即可,这里不再赘述。
在这里插入图片描述

划重点,划重点,划重点!!!
BP算法的具体例子来喽!!

就算上面的所有东西你都看的迷迷糊糊,通过下面的例子,相信绝大多数人也能很轻松的理解BP算法。如图是一个简单的神经网络用来举例:
在这里插入图片描述

下面是前向(前馈)运算(激活函数为sigmoid):
在这里插入图片描述

下面是反向传播(求网络误差对各个权重参数的梯度):

我们先来求最简单的,求误差E对w5的导数。首先明确这是一个“链式求导”过程,要求误差E对w5的导数,需要先求误差E对out o1的导数,再求out o1对net o1的导数,最后再求net o1对w5的导数,经过这个链式法则,我们就可以求出误差E对w5的导数(偏导),如下图所示:
在这里插入图片描述

导数(梯度)已经计算出来了,下面就是反向传播与参数更新过程
在这里插入图片描述

上面的图已经很显然了,如果还看不懂真的得去闭门思过了(开玩笑~),耐心看一下上面的几张图,一定能看懂的。

如果要想求误差E对w1的导数,误差E对w1的求导路径不止一条,这会稍微复杂一点,但换汤不换药,计算过程如下所示:
在这里插入图片描述

至此,“反向传播算法”及公式推导的过程总算是讲完了啦!个人感觉,尤其是第二组图,还算是蛮通俗易懂的,希望能帮助到大家,共同进步!

感觉本篇讲的有点啰嗦了,直接放第二组图可能会更简洁,以后争取改进。

以上(麻烦大家 点赞 + 关注 一波啊)

References

http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html
https://www.cnblogs.com/charlotte77/p/5629865.html
https://blog.csdn.net/han_xiaoyang

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48385.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【工具】1729- PMAI:优秀的产品经理 AI 帮手

关注 “AI 工具派” 探索最新 AI 工具,发现 AI 带来的无限可能性! 今天 Chris 给大家推荐的工具是 PMAI,一款产品经理的 AI 助手,可以一键生成 PRD、解决方案、流程图、sql 等功能,快来一起看看吧。 工具地址&#xff…

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)...

“ ChatGPT 的 Transformer 神经网络架构,以及海量的数据训练让它能够像人类一样进行写作。” 经过前面两期漫长的介绍文章: 为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一…

2023年中国私域运营洞察白皮书

导读: 随着私域阵地边界的拓展,内容成为捕获消费者注意力的关键,下一阶段的私域运营将向以内容为中心进行升级。《2023年中国私域运营洞察白皮书》从私域运营的发展背景出发,提出了以内容为中心的私域运营进阶模式,并公…

如何利用chatGPT/GPT4高效学习Solidworks二次开发

最近比较火的无疑是ChatGPT/GPT4,它的出现是不是像大家所想的,能够改变世界。 比如说让我丢了饭碗 ![在这里插入图片描述](https://img-blog.csdnimg.cn/3ab46dde8f89452da5c524f770de19b7.png)要不我们来试试它? 先用这个试试,据说这个比较…

数读|未来人工智能生成内容还能做哪些工作?

除了ChatGPT,AIGC还有哪些想象空间?未来还能帮我们做什么? 贝壳财经记者梳理资料发现,目前AIGC已经悄然影响多个领域。在国外一些AI应用已经可以实现撰写博客文章、社交媒体帖子、营销电子邮件等,支持超过25种语言&…

图解 72 个机器学习基础知识点

ChatGPT狂飙160天,世界已经不是之前的样子。 我新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 图解机器学习算法系列 以图解的生动方式,阐述机器学习核心知识 & 重要模型,并通过代码讲通应用细节…

韩语中有“促音”吗?从音变语法中得到答案,从日语转韩语的学习者常见误区

摘要 我有一些从日语转韩语的学习小伙伴,把韩语的收音归为“促音”。对于具有日语基础的学习者来说,促音的说法是很直观的,好理解,但是韩语的收音完全不是促音,而且不应该按照促音一样理解。 日语“促音”介绍 对于…

韩语重要语法*

语气结尾词: -는걸요:添加自己的想法,意见 基本阶다니:听到的事实,表达看法,情感 -자니:把别人的要求,建议 当做原因 (으)리라 意志,猜测 基本阶고요:确认/纠正判断/强调 -긴는요: 意见想反/谦虚 거든요…

推特营销|推特群推你有无限可能

在许多社交媒体平台中,Twitter以其简短而集中的消息而闻名。 它可与最常见的社交媒体FB、IG、TG等配合使用,与脸书相比,每个Twitter将到达每个关注者的feed,因此也就为你的群发推广提供了无限可能。 现在,让我们和Twi…

推特自动发帖,快速提升人气

Twitter一直是所有类型企业和品牌的极其宝贵的营销工具。如果使用得当,它本身就能成为一种高效的营销工具。Twitter与其他社交媒体渠道,在营销策略以及工作方式方面略有不同,在品牌营销方面与利用Twitter做推广,就意味着随着您的动…

Facebook vs推特: 谁才是社交媒体王者?

Facebook最怕的是:卧槽,这人我不认识;twitter最怕的是:卧槽,这个人认识我。 从独立站的角度来看,Facebook和Twitter两者的效果也存在很大的区别。首先,Facebook是一个人人都可以注册的社交平台&…

手撕Twitter推荐算法

Twitter近期开源了其推荐系统源码[1,2,3],截止现在已经接近36k star。但网上公开的文章都是blog[1]直译,很拗口,因此特地开个系列系统分享下。系列涵盖: Twitter整体推荐系统架构:涵盖图数据挖掘、召回、精排、规则多…

推特群推营销解读

推特群推王发现,许多品牌使用社交媒体作为提供更好客户支持的一种渠道。使用社交媒体可以实时响应客户的需求。通过电子邮件获取品牌有时可能需要长达48小时。但是,通常在社交媒体上回应的时间要快得多。客户将通过你的品牌发推文,你将在手机…

马斯克400条聊天记录被法院公开,原来推特收购是在短信上谈崩的

梦晨 詹士 发自 凹非寺量子位 | 公众号 QbitAI 2022特斯拉AI DAY举办同时,马斯克另一桩大事也有了最新进展。 特拉华州法院公布了一系列马斯克与推特交易关联方的聊天记录,时间跨度从2022年1月份到6月份,数量超过400条。 随大量私人聊天记录曝…

推特自动发帖,全天占据核心流量

利用热门趋势和Hashtags标签 Twitter有一个热门趋势,跟微博热搜是差不多的,卖家可以多关注一下热门趋势,看看有没有和产品相关的内容。在帖子中加入趋势性和热门的标签,是一种非常好的营销方式。 这一方面能够增加推文的热度&am…

推特Twitter数据采集(内容,粉丝,关键字等)

(有需求可以私信我,24小时在线蟹蟹) 最近因为工作需要爬虫了一段时间推特。 Twitter网站是用AJAX异步加载的,用request请求到json文件的数据url也是拒绝的 所以只能慢慢模拟浏览器下滑慢慢加载json文件咯(当然我没有…

Twitter群推王的推特自动发帖功能是如何实现的

对于做海外引流的跨境卖家而言,推特是一个不可不知道的引流平台,而玩转推特批量发帖又是进行推特引流最简单直接有效的途径之一。Twitter群推王是一款协议开发的群控系统,刚好可以帮助大家实现控制多个账号定时发帖。 这里我可以来看下推特群…

Google Bard初体验 - 感觉并不是很能打

写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成…

chatgpt赋能python:PythonRun没反应怎么办?

Python Run没反应怎么办? 在使用Python编程的过程中,有时候会碰到一些奇怪的问题,其中之一就是Python Run没反应。那么,这种情况下我们应该如何解决呢? 可能的原因 首先,我们需要明确一点,Py…

transformer进行医学图像分割文章

近两年用trm做医图分割文章合集欢迎补充 CoTr:基于CNN和Transformer进行3D医学图像分割UNETR: Transformers for 3D Medical Image SegmentationSwin-unet:用于医学图像分割的类UNET纯transformerTransBTS:基于transformer的多模式脑肿瘤分割…