深度学习--优化器篇(超保姆级+附代码包含常用各种优化器)

引言

  • 在深度学习过程中总会在代码中遇到优化器.Adam(),在上一篇实现卷积神经网络CNN的代码分析中也提到了优化器的概念,那么优化器如何通俗的理解呢?
  • 个人通俗理解(仅供参考):为梯度下降法配置的一个的"领航员",寻找模型最优解又要避免出现局部最优解,使之能快速高效的达到"目标"
  • 以下为使用chatgpt3.5的回答(仅供参考,还挺全乎,直接给我把本文要介绍的优化器优缺点都总结好了)

  • 优化器在pytorch的调用看这里: pytorch中文文档

介绍顺序:SGD -> SGDM -> NAG ->AdaGrad -> RMSProp -> AdaDelta -> Adam -> Nadam

SGD( 随机梯度下降法)

  • 首先理解优化器要先懂得梯度下降法

  • 个人理解GD系列的通俗数学表达式(仅供参考)

    • α表示学习率,ΔT表示梯度(以下三种方法的ΔT代表含义并不一样)
    • GD:ΔT会在每输入一个样本就更新一次
    • BGD:ΔT会在批量输入数据之后才更新一次(也就是那个batchsize参数)
    • SGD:在批量的前提下,随机抽取一个样本更新ΔT
    • 以上三个都是在提升参数更新效率的方向上优化,但是都无法克服产生局部震荡,从而只是实现了局部最优解的问题
      W n e w = W o l d − α ∗ Δ T ( W o l d ) W_{new} = W_{old} - \alpha * ΔT(W_{old}) Wnew=WoldαΔT(Wold)
  • 更加详尽的解答见:参考资料1
    参考资料2

SGDM(带动量的SGD:SGD with momentum)

  • 关于加入动量
    • 理解1:为了抑制SGD的震荡,SGDM认为梯度下降过程可以加入惯性。就像下坡的时候,如果发现是陡坡,那就利用惯性跑的快一些,即使重力的作用下也会到底后继续往反方向"攀登一些高度" 参考资料3
  • SGDM的公式如下(进攻参考):
    • η为动量系数(一般取0.9) V为动量因子
    • 其他同SGD是一样的
    • 通俗理解原理就是:当更新本次参数的时候,动量因子会根据动量系数保留部分上次梯度,当梯度方向不发生变化那动量因子会加速更新(类比山谷就是陡坡加速到谷底即可),反之方向相反就要减速最好是直接跳过局部最优解的山谷,前往全部最优解的山谷
      V n e w = V o l d ∗ η − α ∗ Δ T ( W o l d ) V_{new} = V_{old}*\eta - \alpha * ΔT(W_{old}) Vnew=VoldηαΔT(Wold)
      W n e w = W o l d + V n e w W_{new} = W_{old} + V_{new} Wnew=Wold+Vnew

NAG(Nesterov Accelerated Gradient 加速梯度)

  • NAG其实是在SGD,SGDM的基础上进一步优化,通过提前"探路"让下降的更加"智能"

  • NGA中使用"下一步位置"也就是未来的梯度来替换当前位置梯度来完成"探路",如果下一步位置比当前更陡峭,那就提前"刹车"防止走不到坡底在动量的推动下跳上了另一个高坡从而错过全部最优解,这样就会比纯动量更加保险,就像在动量上加一个限速锁(emm,又不是太准确,上面的η反倒更像限速锁)防止走的太快

  • 那么未来梯度怎么计算呢?
    W n e w = V o l d ∗ η − α ∗ Δ T ( W o l d ) + W o l d W_{new} = V_{old}*\eta - \alpha * ΔT(W_{old}) + W_{old} Wnew=VoldηαΔT(Wold)+Wold

  • 在SGD计算公式中,其实alpha * ΔT是一个很小的值,因为梯度下降时候学习率太大也就是步子太大会错过最优点所以一般设置学习率都比较小(即使会导致下降的很慢但是不容易错过最优解呀),那么这就决定了上面的乘积结果不会太大,我们就近似得到未来位置的W值
    W f e a t u r e = V o l d ∗ η + W o l d W_{feature} = V_{old}*\eta + W_{old} Wfeature=Voldη+Wold

  • 那我们用未来W值再去计算V_new就可以实现在急速的梯度变化的时候提前"适应",从而提高训练时候的稳定性(W_new依然是动量+W_old)

    • 图片仅供参考哈,不一定非常准确相对来说形象一些
      V n e w = V o l d ∗ η − α ∗ Δ T ( W f e a t u r e ) V_{new} = V_{old}*\eta - \alpha * ΔT(W_{feature}) Vnew=VoldηαΔT(Wfeature)

  • 关于SGD,SGDM,NAG优化器在Pytorch中已经封装到.SGD函数中了

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

  • lr:学习率(learning rate),控制每次参数更新的步长。默认值为0.001。
  • momentum:动量(momentum),加速SGD在相关方向上前进,抑制震荡。常常取值为0.9。若设为0,则为经典的SGD算法。
  • dampening:阻尼(dampening),用于防止动量的发散(η)。默认值为0。
  • weight_decay:权重衰减(weight decay),也称权重衰减(weight regularization),用于防止过拟合。默认值为0。
  • nesterov:采用Nesterov加速梯度法(Nesterov accelerated gradient,NAG)。默认值为False。
  • 最下方将使用上篇CNN代码篇代码替换优化器进行测试,效果可见测试结果 参考资料5
    参考资料6

Adagrad(Adaptive gradient algorithm)

  • 自适应梯度优化器(自适应学习率优化算法),优化的是学习率α

    • 如参考文章中所说的:深度学习模型中有大量参数(可以看上篇CNN原理介绍的时候就提过全连接神经网络随着层级和神经元的增加参数量成次方倍上升),但是不是所有的参数更新频率都是一致的,对于更新不频繁的参数,我们了解的信息太少,希望能从每个偶然出现的样本身上多学一些,即学习速率大一些;对于更新频繁的参数,我们已经积累了大量关于它的知识,不希望被单个样本影响太大,希望学习速率慢一些。
  • Adagrad引入一个新的概念就是对每个参数进行"缓存",来判断该参数更新的频率,该值是集合了直到当前点为止的梯度的平方

    • Adagrad的数学表达式:(学习率α可以看为全局初始学习率,真正的学习率有α/分母这一部分决定,ε为一个超级小的数来防止分母为0的)
    • Adagrad优化器的基本原理根据计算公式解释:如果权重进行了非常大的更新,那么其缓存值也将增加学习率将变得更小,随之权重的更新幅度会随时间而减少。反之如果权重没有进行任何重大更新,那么其缓存值将非常小学习率将提高,从而迫使其进行较大的更新
    • 优点:不需要人为的调节学习率,它可以自动调节;对于稀疏的数据它的表现很好,很好地提高了 SGD 的鲁棒性;
    • 优点也同样会成为算法的缺点:无论权重过去的梯度如何,由于平方不能为负,因此缓存将始终增加一定的量。因此每个权重的学习率最终都会降低到非常低的值(会到0)以至于训练无法再有效进行(这样就引出了下一个优化器RMSProp)。
    • 注:很多参考资料会说明这个cache_{new}是一个对角阵,个人感觉通俗来讲可以暂且将其视为一个变量即可,因为深度学习算法原理计算基本都是矩阵的形式,待理解程度的加深后再做解释
      c a c h e n e w = c a c h e o l d + [ Δ T ( W o l d ) ] 2 cache_{new} =cache_{old} + [ΔT(W_{old})]^2 cachenew=cacheold+[ΔT(Wold)]2
      W n e w = W o l d − α c a c h e n e w + ϵ ∗ Δ T ( W o l d ) W_{new} = W_{old} - \frac{\alpha}{\sqrt{cache_{new} + \epsilon}} * ΔT(W_{old}) Wnew=Woldcachenew+ϵ αΔT(Wold)
  • 接口部分(一般取学习率为0.01)

torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0, initial_accumulator_value=0)

RMSProp

  • RMSprop和下面要介绍的Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的

  • RMSProp算法修改了AdaGrad的梯度积累为指数加权的移动平均,以及增加一个新参数,衰减率参数γ,防止训练过程提前结束的问题

  • 同类型RMSProp数学表达式如下:(可能有错,进攻理解参考)
    c a c h e n e w = c a c h e o l d ∗ γ + ( 1 − γ ) ∗ [ Δ T ( W o l d ) ] 2 cache_{new} = cache_{old} * \gamma + (1- \gamma) * [ΔT(W_{old})]^2 cachenew=cacheoldγ+(1γ)[ΔT(Wold)]2
    W n e w = W o l d − α c a c h e n e w + ϵ ∗ Δ T ( W o l d ) W_{new} = W_{old} - \frac{\alpha}{\sqrt{cache_{new} + \epsilon}} * ΔT(W_{old}) Wnew=Woldcachenew+ϵ αΔT(Wold)

  • 其实上述公式这样的话是方便理解了,但是我觉得是瑕疵的,因为没有凸显出指数加权移动平均的作用,所以附上下面另一个表达式(下图是下面公式的参考公式)
    E ( c a c h e n e w 2 ) = E ( c a c h e o l d 2 ) ∗ γ + ( 1 − γ ) ∗ [ Δ T ( W o l d ) ] 2 E(cache_{new}^2) = E(cache_{old}^2) * \gamma + (1- \gamma) * [ΔT(W_{old})]^2 E(cachenew2)=E(cacheold2)γ+(1γ)[ΔT(Wold)]2
    W n e w = W o l d − α E ( c a c h e n e w 2 ) + ϵ ∗ Δ T ( W o l d ) W_{new} = W_{old} - \frac{\alpha}{\sqrt{E(cache_{new}^2) + \epsilon}} * ΔT(W_{old}) Wnew=WoldE(cachenew2)+ϵ αΔT(Wold)

  • 代码部分(γ一般取0.9,学习率η取0.001)

torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

Adadelta

  • AdaGrad算法和RMSProp算法都需要指定全局学习率,AdaDelta算法属于是结合了两种算法更新参数的优点

  • 同样通俗数学公式为:

    • 从公式可以看出AdaDelta不需要设置一个默认的全局学习率
    • 在模型训练的初期和中期,AdaDelta表现很好,加速效果不错,训练速度快。
    • 在模型训练的后期,模型会反复地在局部最小值附近抖动。
      Δ W A d a G r a d = − α c a c h e n e w + ϵ ∗ Δ T ( W o l d ) ΔW_{AdaGrad} = - \frac{\alpha}{\sqrt{cache_{new} + \epsilon}} * ΔT(W_{old}) ΔWAdaGrad=cachenew+ϵ αΔT(Wold)
      Δ W R M S p r o p = − α E ( c a c h e n e w 2 ) + ϵ ∗ Δ T ( W o l d ) ΔW_{RMSprop} = - \frac{\alpha}{\sqrt{E(cache_{new}^2) + \epsilon}} * ΔT(W_{old}) ΔWRMSprop=E(cachenew2)+ϵ αΔT(Wold)
      Δ W = − Δ W A d a G r a d Δ W R M S p r o p ΔW = - \frac{ΔW_{AdaGrad}}{ΔW_{RMSprop}} ΔW=ΔWRMSpropΔWAdaGrad
      W n e w = W o l d + Δ W W_{new} = W_{old} + ΔW Wnew=Wold+ΔW
  • 代码部分(γ一般设置为0.9)

torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

Adam(Adaptive Moment Estimation)

  • 前面SGD-M在SGD基础上增加了一阶动量,AdaGrad和AdaDelta在SGD基础上增加了二阶动量(其实就是那个平方项,很多参考资料称之为二阶动量),那么把一阶动量和二阶动量都用起来就是Adam的构成了,即:Adaptive(Adadelta, RMSProp,Adagrad) + Momentum。

  • 首先我们计算动量部分:(与之前的V_new表达式只是把学习率α换成了(1-β))
    m n e w = β 1 ∗ m o l d − ( 1 − β ) ∗ Δ T ( W o l d ) m_{new} = \beta1 * m_{old} - (1 - \beta) * ΔT(W_{old}) mnew=β1mold(1β)ΔT(Wold)

  • 接下来二阶动量(参数缓存)部分,结构一毛一样
    c a c h e n e w = c a c h e o l d ∗ β 2 + ( 1 − β 2 ) ∗ [ Δ T ( W o l d ) ] 2 cache_{new} = cache_{old} * \beta2 + (1- \beta2) * [ΔT(W_{old})]^2 cachenew=cacheoldβ2+(1β2)[ΔT(Wold)]2
    W n e w = W o l d − α c a c h e n e w + ϵ ∗ m n e w W_{new} = W_{old} - \frac{\alpha}{\sqrt{cache_{new} + \epsilon}} * m_{new} Wnew=Woldcachenew+ϵ αmnew

  • Adam通过计算动量来执行梯度的累积,而且我们还通过使用缓存不断地改变学习率。所以在神经网络中相对比较常用甚至是无脑选的感觉,Adam通常被认为对超参数的选择相当鲁棒,尽管学习率有时需要从建议的默认修改。

  • 在Adam的论文中,建议的参数beta_1为0.9,beta_2为0.99,epsilon为1e-08 .

  • 补:其实真实场景是下图的方式,初始值都为0,需要进行修正后参数才可以使用

  • 代码部分(一般 β1 = 0.9,β2 = 0.999,ϵ = 10e−8)

torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

Nadam(Nesterov-accelerated adaptive moment estimation)

  • Adam是融合了动量和缓存,但是还有一个NAG思想没用上,那么再融合NAG加速就是Nadma了,但是NAG思想是用下一个预测点来探路,但是在Nadam中并未使用而是在当前位置对当前梯度方向做两次更新
  • 参考上面Aadm的图示,看下图比对理解即可(由于个人理解也有点不太确定,所以仅供参考待后面理解更深再做修改解释)

  • 代码部分(该优化器貌似没有内置,仅供参考此处待以后如果用到再详细介绍)

torch.optim.NAdam(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, momentum_decay=0.004)

参考资料中都有一个各个优化器的动画图,这里也贴上(仅供参考)

优化器1
优化器2

  • 下面是学习时候见到的一个使用python实现各种优化器文章,代码个人并未测试,仅供参考
    使用python实现各个优化器

结尾:

  • 首先:关于本文中优化器的数学表达式,分成两种,一种是通俗形式(经供参考可能有错误),另一种是各种版本的数学表达式,相对比较抽象,也很费解,文中我会简单说明一下注意甄别,个人感觉由于实际使用中是调用优化器函数,要理解的是1:各个优化器优化思想 2:懂得优化器函数中超参数在数学表达式的意义可以调参即可,用来表达优化器思想的数学式子可以是千变万化的
  • 文中有错误的地方欢迎指正,共同进步
  • 文中代码部分部分有验证,验证详情待资源文件,未验证的还请斟酌食用
    • GITHUB资源地址
  • 关于实际测试的文件待更新…(资源需要审核,其中后几个优化器我的pytorch版本太低并不支持,与python版本要匹配所以未测试出结果,有兴趣可以自行安装后测试)

  • 其中参考资料1解释的更加详尽与透彻,但是公式多少有些抽象费解,参考资料2作者的有些讲解可以辅助理解,关于通俗一些的公式主要是参考(可能有错误,注意甄别)数学公式通俗理解

其他参考资料

其他1
其他2
其他3
其他4
其他5
其他6
其他7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13959.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

李宏毅 深度学习

目录 深度学习与自然语言处理 | 斯坦福CS224n 课程带学与全套笔记解读(NLP通关指南完结)pytorch快速入门csdn快速入门OS包PIL包Opencv包Dataset类Tensorboard的使用torchvision.transforms 的使用torchvision中数据集的使用DataLoader的使用(torch.util…

自动驾驶索引

自动驾驶感知、融合、规控: https://blog.csdn.net/yuan2520?typeblog Backlog: 自动驾驶之心 https://blog.csdn.net/CV_Autobot?typeblog OpenPilot分析 | 从图像到油门/刹车 https://blog.csdn.net/CV_Autobot/article/details/129036228?spm1001.…

BFT News|科技行业重点新闻一周概览

BFT机器人 01 ChatGPT 已经恢复 Plus 订阅服务 据悉,OpenAI的 ChatGPT 已经恢复了 Plus 订阅服务。此前,ChatGPT 官网停止 Plus 付费项目的购买,原因是「需求量过大」。业内推测,这是由于 ChatGPT 背后的算力资源出现明显缺口&am…

人工智能轨道交通行业周刊-第36期(2023.2.27-3.5)

本期关键词:智能高铁体系架构、广州港海铁联运、5G-R、铁路受电弓、电务信号工、图像压缩 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通R…

GPT-4来临!多模态大模型将颠覆自动驾驶?

/ 导读 / 近日,随着ChatGPT的火爆,其神奇的能力也让民众感觉下一个科技奇异点的到来,而紧随其后,微软发布了copilot——gpt-4平台支持的人工智能新功能,并将其适用于word、powerpoint、excel、outlook、teams等微软商业…

chatgpt赋能python:Python动态方法:为什么它是编程世界中如此重要的概念

Python动态方法:为什么它是编程世界中如此重要的概念 当谈到python编程时,动态方法是一个关键的概念。动态方法允许您在运行时动态添加方法到对象中。这种方法非常有用,因为它可以让您的代码更加灵活和可读性更强。 什么是动态方法 在Pyth…

GPT-1/GPT-2/GPT-3/GPT-3.5 语言模型详细介绍

OpenAI家族 我们首先了解下OpenAI是哪路大神。OpenAI总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立,目标是开发造福全人类的AI技术。而马斯克则在2018年时因公司发展方向分歧而离开。 此前,OpenAI 因推出 GPT系…

我,90后,有点想住养老院

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI 现在,有些养老院的硬核程度,可能有点超出你的想象。 比如大爷遛弯儿的坐骑,长这样: 木有错,这玩意儿不仅能自动识别障碍物,还跟智能车似的,能在养老院内…

向量嵌入:AutoGPT的幻觉解法?

来源|Eye on AI OneFlow编译 翻译|贾川、杨婷、徐佳渝 “一本正经胡说八道”的幻觉问题是ChatGPT等大型语言模型(LLM)亟需解决的通病。虽然通过人类反馈的强化学习(RLHF),可以让模型对错误的输出…

CV 什么时候能迎来 ChatGPT 时刻?

卷友们好,我是rumor。最近看了几篇CV的工作,肉眼就感受到了CVer们对于大一统模型的“焦虑”。这份焦虑让他们开始尝试统一一切,比如: 统一复杂的自动驾驶任务的优化目标,来自今年CVPR最佳论文。统一典型的CV任务&#…

CV什么时候能迎来ChatGPT时刻?

卷友们好,我是rumor。 最近看了几篇CV的工作,肉眼就感受到了CVer们对于大一统模型的“焦虑”。 这份焦虑让他们开始尝试统一一切,比如: 统一复杂的自动驾驶任务的优化目标[1],来自今年CVPR最佳论文。统一典型的CV任务&…

轻松客观认识大模型系列:一

这是我关于《轻松客观认识大模型系列》第一篇 一、前言 这篇文章旨在为没有计算机科学背景的读者提供一些关于ChatGPT及其类似的人工智能系统(如GPT-3、GPT-4、Bing Chat、Bard等)如何工作的原理。ChatGPT是一种聊天机器人,建立在一个大型语…

【综述专栏】“ChatGPT的问题、风险与机遇”会议综述

来源:清华大学智能法治研究院 在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说&am…

利用ChatGPT来学习Power BI

学习Power BI,或者说学习微软的相关产品的时候,最讨厌的就是阅读微软的官方文档,写的真的太硬了,有时候实时是啃不动,只能说不愧是巨硬。 但是,我们现在有AI帮忙了啊,ChatGPT3都通过了谷歌L3工…

如何用ChatGPT协助搭建品牌视觉体系(VI)?

该场景对应的关键词库(18个): VI体系、品牌、目标市场、品牌DNA、人群特征、设计理念、标志设计、配色方案、字体选择、图形元素、价值观、形象、客户经理、需求、品牌定位、目标受众、主色调、辅助色 提问模板(2个)&…

用Python代码画chatGPT的LOGO

文章目录 简介代码运行效果备注 简介 用python代码画chatGPT的LOGO,仅使用turtle库。如下: 绘画过程可以在下列平台查看: 抖音:用代码画chatGPT的logo b站:用代码画chatGPT的logo_哔哩哔哩_bilibili 代码 # codin…

2023,AIGC能赚到钱吗?

2022年,AIGC(生成式AI)是当之无愧的网红。 AI作画在各大社交平台刷屏,ChatGPT火爆国内外出尽了风头,依靠AI生成语音和表情、动作的数字人也频频露脸。2022年12月,Science杂志发布了2022年度科学十大突破&am…

跳出零和博弈,AIGC是元宇宙的“催命符”还是“续命丹”?

文 | 智能相对论 作者 | 青月 从科幻小说《雪崩》里走出来的元宇宙,如今正在上演“地价雪崩”。 CoinGecko的一项调查显示,Otherdeed for Otherside、The Sandbox、Decentraland、Somnium Space和Voxels Metaverse 这五款知名元宇宙土地价格近期均出现…

人工智能落地新范式:“大模型+”

7月8日,在2023世界人工智能大会(下称WAIC)上,一位参展商透露——“大模型”,是绕不开的主题。为期3天的大会,每场会议都有关于大模型的话题,每个论坛都离不开围绕大模型的讨论,国内A…

元宇宙退潮,人工智能起飞,大厂 Al 新赛点在哪?

作者 | 何苗 出品 | CSDN(ID:CSDNnews) 自去年底至今,多个企业在近期缩减元宇宙业务,如今ChatGPT有多火爆,上一任科技“网红”元宇宙就显得有多落寞。在大厂集体撤退元宇宙之后,似乎纷纷…