深度学习中学习率调整策略

学习率衰减策略是深度学习优化过程中的一个关键因素,它决定了训练过程中学习率的调整方式,从而影响模型收敛的速度和效果。不同的衰减策略在不同的任务和模型上可能有不同的表现,下面从我用到过的几个衰减策略进行记录,后续慢慢跟进。

为什么需要学习率衰减?

在训练深度学习模型时,学习率的选择至关重要。通常,我们希望模型能够在训练的早期阶段较快地收敛(即较大的学习率),而在训练的后期阶段逐渐减小学习率,以便模型能够更精细地调整参数,避免错过局部最优点。

阶梯衰减Step Decay

这是最简单常用的学习率调整方法,每过step_size轮,将此前的学习率乘以gamma。

torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

余弦退火调整学习率 CosineAnnealingLR

在每个周期内,学习率从初始学习率(lr0)开始,经过余弦函数的逐渐衰减,最后衰减到最小学习率(eta_min)。

torch.optim.lr_scheduler.CosineAnnealingLR(
optimizer, 
T_max,     
eta_min=0,
last_epoch=-1)

T_max:指定一个完整的周期(例如,多少个训练步长或 epoch)。在 T_max 的周期内,学习率会从初始学习率衰减到 eta_min

eta_min=0:最终学习率

last_epoch=-1:指定上次训练的最后一个epoch,-1就是从头开始训练

余弦退火重启学习率 CosineAnnealingWarmRestarts

CosineAnnealingWarmRestarts 通过将学习率沿着一个余弦曲线逐渐衰减到最小值(eta_min),然后在周期结束时重启并回升到初始学习率(lr0),这种周期性的重启和余弦退火帮助模型在每个阶段进行不同范围的探索,避免陷入局部最优。

scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
optimizer, 
T_0, 
T_mult=1, 
eta_min=0,
last_epoch=- 1, 
verbose=False)

T_0:第一个周期的长度,后续的长度基于T0和T_mult调整

T_mult:控制后续周期的长度,例如设置为2,那则第二个周期长度会是第一个周期的2倍,第三个周期的长度会是第二个周期的2倍,设置为1则每个周期一样长。

eta_min:这是学习率的最小值。在每个周期中,学习率会从 eta_max(初始学习率)衰减到 eta_min,然后在每个周期结束时重新回升到初始学习率。
verbose:如果设置为 True,则每次学习率重启时,调度器会输出日志信息,显示学习率调整的情况。例如,输出每次重启时的学习率和当前的训练状态。

线性衰减 Linear Decay

在线性衰减中,学习率随着训练的进展而线性地减小。学习率的减少是均匀的,每个时间步减少固定的量,直到达到预定的最小值

torch.optim.lr_scheduler.LinearLR(
optimizer,
start_factor=1,
end_factor=0.1,
total_iters=80)

LinearLR是线性学习率,给定起始factor和最终的factor,LinearLR会在中间阶段做线性插值,比如学习率为0.1,起始factor为1,最终的factor为0.1,那么第0次迭代,学习率将为0.1,最终轮学习率为0.01。下面设置的总轮数total_iters为80,所以超过80时,学习率恒为0.01。

指数衰减 Exponential Decay

学习率初期迅速下降,适合早期跳出局部最优,但可能导致后期过早收敛,适合大规模训练任务或对收敛速度有要求的情况。

torch.optim.lr_scheduler.ExponentialLR(
optimizer,
gamma=0.9)

ExponentialLR是指数型下降的学习率调节器,每一轮会将学习率乘以gamma,所以这里千万注意gamma不要设置的太小,不然几轮之后学习率就会降到0。

可视化

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Electron 学习之旅:从入门到实践》

前言 Electron 简介 Electron 是由 GitHub 开发的一个开源框架,基于 Chromium 和 Node.js。 它允许开发者使用 Web 技术(HTML、CSS、JavaScript)构建跨平台的桌面应用程序。 Electron 的优势 跨平台:支持 Windows、macOS 和 Linux…

UBuntu24.04-JDK7-TOMCAT7安装

jdk7 apt-get 找不到。 tomcat7 也没找到。 以下是安装成功的,供大家参考。 1.JAVA openjdk-7-jdk /usr/lib/jvm/java-7-openjdk-amd641.安装指定版本apt search jdk //查找版本sudo apt install default-jdk //此为默认版本sudo apt install ope…

美畅物联丨WebRTC 技术详解:构建实时通信的数字桥梁

在互联网技术飞速发展的今天,实时通信已成为数字生活的核心需求。WebRTC作为一个开源项目,凭借卓越的技术实力与创新理念,为网页和移动应用带来了颠覆性的实时通信能力。它突破了传统通信方式的限制,实现了音频、视频和数据在用户…

驾驭 DeepSeek 科技之翼,翱翔现代学习新天际

在当今这个信息爆炸的时代,学习的方式和途径正在经历着前所未有的变革。人工智能技术的飞速发展,为我们的学习带来了全新的机遇和挑战。DeepSeek 作为一款强大的大语言模型,凭借其卓越的性能和丰富的功能,为现代学习注入了新的活力…

写时拷贝技术

目录 写时拷贝 核心思想 基本原理 基本过程 一个例子深入理解 补充知识--引用计数 小总结 写时拷贝实现 宏观理解(进程、线程角度) 资源共享 只读访问 写操作触发拷贝 独立修改 微观理解(fork系统调用角度) 进程创…

requests库的request和response对象的属性和方法

Python requests库 request 参数信息 response 参数信息

MySQL数据库操作

目录 SQL语句 1、SQL的背景 2、SQL的概念 SQL的分类 SQL的书写规范 MySQL数据库 1、MySQL数据库的编码 (1)utf8和utf8mb4的区别 (2)MySQL的字符集 (3)MySQL默认编码为 latin1 ,如何更改…

Blender-MCP服务源码5-BlenderSocket插件安装

Blender-MCP服务源码5-BlenderSocket插件安装 上一篇讲述了Blender是基于Socket进行本地和远程进行通讯,现在尝试将BlenderSocket插件安装到Blender中进行功能调试 1-核心知识点 将开发的BlenderSocket插件安装到Blender中 2-思路整理 1)将SocketServe…

Androidstudio实现一个app引导页(超详细)

文章目录 1. 功能需求2. 代码实现过程1. 创建布局文件2. 创建引导页的Adapter3. 实现引导页Activity4. 创建圆点指示器的Drawable5. 创建“立即体验”按钮的圆角背景 2.效果图 1. 功能需求 1、需要和原型图设计稿对应的元素保持一致的样式。 2、引导页需要隐藏导航栏&#xff…

蓝桥杯省赛真题C++B组-小球反弹

一、题目 有一长方形,长为 343720 单位长度,宽为 233333 单位长度。在其内部左上角顶点有一小球(无视其体积),其初速度如图所示且保持运动速率不变,分解到长宽两个方向上的速率之比为 dx:dy 15:17。小球碰到长方形的边框时会发生…

基于深度学习的多模态人脸情绪识别研究与实现(视频+图像+语音)

这是一个结合图像和音频的情绪识别系统,从架构、数据准备、模型实现、训练等。包括数据收集、预处理、模型训练、融合方法、部署优化等全流程。确定完整系统的组成部分:数据收集与处理、模型设计与训练、多模态融合、系统集成、部署优化、用户界面等。详…

AI 数字人短视频源码开发:开启虚拟世界的创意引擎

在当今数字化浪潮中,AI 数字人正以惊人的速度融入我们的生活,尤其是在短视频领域,AI 数字人凭借其独特的魅力吸引了无数目光。从虚拟偶像的舞台表演到智能客服的贴心服务,AI 数字人已成为推动短视频行业创新发展的重要力量。而这背…

Java 代理模式:从静态代理到动态代理

前言 代理模式是 Java 中常见的设计模式之一,它的核心思想是通过一个代理对象来控制对真实对象的访问。代理模式不仅可以扩展目标对象的功能,而且在不修改原目标对象的情况下,可以增加一些我们自定义的操作。 1. 代理模式简介 代理模式的核心…

PyCharm 2019.1.3使用python3.9创建虚拟环境setuptools-40.8.0报错处理

目录 前置: 一劳永逸方法(缺最后一步,没有成行) step one: 下载高版本的pip、setuptools、virtualenv的tar.gz包 step two: 进入PyCharm安装目录的 helpers 目录下 step three: 下载并安装grep和sed命令,然后执行 …

word处理控件Aspose.Words教程:使用 Python 删除 Word 中的空白页

Aspose.Words 是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API支持流行文件格式处理,并…

C++数据结构1——栈结构详解

一、栈的基本概念与特性 1. 栈的定义与特点 栈(Stack)是一种遵循后进先出(LIFO, Last In First Out)原则的线性数据结构,其核心特征包括: 单端操作:所有操作仅通过栈顶进行 动态存储&#xf…

77.HarmonyOS NEXT ImageViewerView 组件深度剖析: Swiper容器与懒加载深度解析

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT ImageViewerView 组件深度剖析: Swiper容器与懒加载深度解析 一、组件基础结构 Component export struct ImageViewe…

向量数据库对比以及Chroma操作

一、向量数据库与传统类型数据库 向量数据库(Vector Storage Engine)与传统类型的数据库如关系型数据库(MySQL)、文档型数据库(MongoDB)、键值存储(Redis)、全文搜索引擎&#xff0…

深入解析对象存储及工作原理

在现代信息技术发展中,存储是一个永恒的话题。从最初的磁带、硬盘到现在的云存储,存储技术不断推陈出新。而其中,“对象存储”作为近年来备受关注的存储技术之一,凭借其高可扩展性和灵活性,逐渐成为企业级存储方案的首…

ctfshow-xxs-316-333-wp

316.反射型 XSS(-326都是反射型) js恶意代码是存在于某个参数中,通过url后缀进行get传入,当其他用户点进这个被精心构造的url链接时,恶意代码就会被解析,从而盗取用户信息。 来看题,先简单测试…