机器学习笔记之优化算法(六)线搜索方法(步长角度;非精确搜索;Glodstein Condition)

引言

上一节介绍了 Armijo \text{Armijo} Armijo准则 ( Armijo Condition ) (\text{Armijo Condition}) (Armijo Condition),本节将继续介绍 Glodstein \text{Glodstein} Glodstein准则 ( Glodstein Condition ) (\text{Glodstein Condition}) (Glodstein Condition)

回顾: Armijo Condition \text{Armijo Condition} Armijo Condition

首先,希望数值解对应的目标函数结果 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0收敛至最优解 f ∗ f^* f
{ f ( x k ) } k = 0 ∞ ⇒ f ∗ \{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^* {f(xk)}k=0f
而数值解对应的目标函数结果满足严格的单调性是一项不可忽视的重要因素:
{ f ( x k + 1 ) = f ( x k + α ⋅ P k ) = ϕ ( α ) ϕ ( α ) = f ( x k + 1 ) < f ( x k ) = ϕ ( 0 ) \begin{cases} \begin{aligned} & f(x_{k+1}) = f(x_k + \alpha \cdot \mathcal P_k) = \phi(\alpha) \\ & \phi(\alpha) = f(x_{k+1}) < f(x_k) = \phi(0) \end{aligned} \end{cases} {f(xk+1)=f(xk+αPk)=ϕ(α)ϕ(α)=f(xk+1)<f(xk)=ϕ(0)
但仅仅满足 { f ( x k ) } k = 0 ∞ \{f(x_k)\}_{k=0}^{\infty} {f(xk)}k=0服从严格的单调性不足以证明 { f ( x k ) } k = 0 ∞ ⇒ f ∗ \{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^* {f(xk)}k=0f。也就是说:后者是前者的必要不充分条件
关于不充分性质的反例,见传送门

Armijo \text{Armijo} Armijo准则产生的动机在于:条件 f ( x k + 1 ) < f ( x k ) f(x_{k+1}) < f(x_k) f(xk+1)<f(xk)的约束能力太松散。而具体表现在: ϕ ( α ) \phi(\alpha) ϕ(α)函数中,满足条件 f ( x k + 1 ) < f ( x k ) f(x_{k+1})< f(x_k) f(xk+1)<f(xk) α \alpha α值过多,反而对优秀步长结果的选择产生阻碍
基础条件涵盖范围
观察上图,其中:

  • 蓝色曲线表示 ϕ ( α ) \phi(\alpha) ϕ(α)的函数曲线;
  • 红色虚线表示步长 α \alpha α划分边界 ϕ ( α ) = f ( x k ) \phi(\alpha) = f(x_k) ϕ(α)=f(xk)。因而 f ( x k + 1 ) < f ( x k ) f(x_{k+1})< f(x_k) f(xk+1)<f(xk)描述的是红色虚线下方的部分,具体对应步长 α \alpha α的选择范围见 α \alpha α轴上的红色实线

Armijo Condition \text{Armijo Condition} Armijo Condition关于 f ( x k + 1 ) < f ( x k ) f(x_{k+1})< f(x_k) f(xk+1)<f(xk)条件过于松散的处理方法是:相比于上图中的红色虚线,尝试找到一条更优的直线对 ϕ ( α ) \phi(\alpha) ϕ(α)进行划分,最终使步长 α \alpha α的选择范围明显降低

它选择了 ϕ ( α ) = f ( x k ) \phi(\alpha) = f(x_k) ϕ(α)=f(xk) ϕ ( α ) \phi(\alpha) ϕ(α) α = 0 \alpha=0 α=0处的切线函数: l ( α ) = f ( x k ) + [ ∇ f ( x k ) ] T P k ⋅ α l(\alpha) = f(x_k) + [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha l(α)=f(xk)+[f(xk)]TPkα进行组合,其划分边界函数表示为:
L ( α ) = f ( x k ) + C 1 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α C 1 ∈ ( 0 , 1 ) \mathcal L(\alpha) = f(x_k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha \quad \mathcal C_1 \in (0,1) L(α)=f(xk)+C1[f(xk)]TPkαC1(0,1)
由于 C 1 > 0 , α > 0 \mathcal C_1 >0,\alpha>0 C1>0,α>0(步长的物理意义);并且 [ ∇ f ( x k ) ] T P k < 0 \left[\nabla f(x_k)\right]^T \mathcal P_k < 0 [f(xk)]TPk<0,因此函数 L ( α ) \mathcal L(\alpha) L(α)斜率存在:
关于 [ ∇ f ( x k ) ] T P k < 0 [\nabla f(x_k)]^T \mathcal P_k < 0 [f(xk)]TPk<0详见优化算法——下降方向的推导过程

  • 上界 0 0 0(无法取到),此时 L ( α ) \mathcal L(\alpha) L(α)的函数图像与 ϕ ( α ) = f ( x k ) \phi(\alpha) = f(x_k) ϕ(α)=f(xk)的函数图像重合
  • 下界 [ ∇ f ( x k ) ] T P k [\nabla f(x_k)]^T \mathcal P_k [f(xk)]TPk(无法取到),此时 L ( α ) \mathcal L(\alpha) L(α)的函数图像与 l ( α ) l(\alpha) l(α)的函数图像重合

对应函数图像表示如下。可以看到:相比上图, α \alpha α轴上绿色实线描述的步长 α \alpha α选择范围明显小于上图中红色实线描述的范围。从而对最优步长 α \alpha α的选择进行优化。
这里并没有涉及证明过程,仅是从逻辑角度进行描述。
Armijo Condition效果
关于为什么要选择 l ( α ) l(\alpha) l(α)的斜率 [ ∇ f ( x k ) ] T P k [\nabla f(x_k)]^T \mathcal P_k [f(xk)]TPk作为下界的描述 ? ? ?主要是因为:该切线函数在局部范围内函数图像(凸函数)中不存在位于该切线下方的函数结果。但这仅仅作用于局部范围。因为我们对完整的 ϕ ( α ) \phi(\alpha) ϕ(α)函数未知,在全局范围中可能存在函数信息位于 l ( α ) l(\alpha) l(α)下方。例如下图描述的 ϕ ( α ) \phi(\alpha) ϕ(α)函数:
初始点对应的切线斜率不是绝对下界
因此,斜率 [ ∇ f ( x k ) ] T P k [\nabla f(x_k)]^T \mathcal P_k [f(xk)]TPk并不是绝对下界。但不否认的是: l ( α ) l(\alpha) l(α)的斜率用于划分有效的 α \alpha α步长来说是苛刻,至少比 ϕ ( α ) = f ( x k ) \phi(\alpha) = f(x_k) ϕ(α)=f(xk)描述的范围更加严格。

关于 Armijo Condition \text{Armijo Condition} Armijo Condition的弊端

关于 Armijo \text{Armijo} Armijo规则,我们仅从 L ( α ) \mathcal L(\alpha) L(α)公式的角度也能看出它相比 f ( x k + 1 ) < f ( x k ) f(x_{k+1}) <f(x_k) f(xk+1)<f(xk)更加严格
f ( x k + 1 ) = ϕ ( α ) < L ( α ) = f ( x k ) + C 1 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α ⏟ < 0 < f ( x k ) f(x_{k+1}) = \phi(\alpha) < \mathcal L(\alpha) = f(x_k) + \underbrace{\mathcal C_1\cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha}_{<0} <f(x_k) f(xk+1)=ϕ(α)<L(α)=f(xk)+<0 C1[f(xk)]TPkα<f(xk)
Armijo \text{Armijo} Armijo规则依然存在弊端:在 C 1 ∈ ( 0 , 1 ) \mathcal C_1 \in (0,1) C1(0,1)的选择过程中,依然存在:满足 ϕ ( α ) < L ( α ) \phi(\alpha) < \mathcal L(\alpha) ϕ(α)<L(α) α \alpha α结果过少,从而这些样本点包含的 α \alpha α范围过小。例如:
其中绿色实线描述 L ( α ) \mathcal L(\alpha) L(α),其对应的有效范围见 α \alpha α轴上的绿色实线。可以看出,覆盖的 α \alpha α范围极小并且对应的 ϕ ( α ) \phi(\alpha) ϕ(α)结果也不够优秀。
包含a范围过小
上述情况是有可能出现的,虽然我们并不执著最小值一定位于 ϕ ( α ) < L ( α ) \phi(\alpha) < \mathcal L(\alpha) ϕ(α)<L(α)所描述的 α \alpha α范围内(因为是求数值解),但我们同样希望:排除掉类似这种 α \alpha α较小,并且质量不高的情况,或者:我们更希望 ϕ ( α ) \phi(\alpha) ϕ(α)核心部分有机会出现在范围内

Glodstein Condition \text{Glodstein Condition} Glodstein Condition

Glodstein Consition \text{Glodstein Consition} Glodstein Consition是在 Armijo Condition \text{Armijo Condition} Armijo Condition的基础上,给 ϕ ( α ) \phi(\alpha) ϕ(α)的范围加上一个下界
{ Glodstein Condition :  f ( x k ) + C 2 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α ⏟ Lower Bound ≤ ϕ ( α ) ≤ f ( x k ) + C 1 ⋅ [ ∇ f ( x k ) ] T P k ⋅ α ⏟ Upper Bound;Armijo Condition C 1 + C 2 = 1 \begin{cases} \text{Glodstein Condition : }\underbrace{f(x_k) + \mathcal C_2 \cdot [\nabla f(x_k)]^T\mathcal P_k \cdot \alpha}_{\text{Lower Bound}} \leq \phi(\alpha) \leq \underbrace{f(x_k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha}_{\text{Upper Bound;Armijo Condition}} \\ \quad \\ \mathcal C_1 + \mathcal C_2 = 1 \end{cases} Glodstein Condition : Lower Bound f(xk)+C2[f(xk)]TPkαϕ(α)Upper Bound;Armijo Condition f(xk)+C1[f(xk)]TPkαC1+C2=1
经过整理,使用一个参数 C \mathcal C C对上述范围进行描述:
f ( x k ) + ( 1 − C ) [ ∇ f ( x k ) ] T P k ⋅ α ≤ ϕ ( α ) ≤ f ( x k ) + C ⋅ [ ∇ f ( x k ) ] T P k α C ∈ ( 0 , 1 2 ) f(x_k) + (1 - \mathcal C) [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha \leq \phi(\alpha) \leq f(x_k) + \mathcal C \cdot [\nabla f(x_k)]^T \mathcal P_k \alpha \quad \mathcal C \in \left(0,\frac{1}{2}\right) f(xk)+(1C)[f(xk)]TPkαϕ(α)f(xk)+C[f(xk)]TPkαC(0,21)
对应的函数图像表示如下:
Goldstein Condition示例
其中两条绿色实线关于 f ( x k ) + 1 2 [ ∇ f ( x k ) ] T P k ⋅ α \begin{aligned}f(x_k) + \frac{1}{2} [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha\end{aligned} f(xk)+21[f(xk)]TPkα(蓝色虚线)对称,两条绿色实线之间的范围就是 ϕ ( α ) \phi(\alpha) ϕ(α)有效的选择范围。其对应的 α \alpha α选择范围见上图 α \alpha α轴上的绿色实线

从而可以通过修改 C \mathcal C C的数值,从而调整上图绿色实线之间的夹角。这种 ϕ ( α ) \phi(\alpha) ϕ(α)的选择方式极大程度地将 ϕ ( α ) \phi(\alpha) ϕ(α)核心部分包含在选择范围内。从而缓解了 Armijo Condition \text{Armijo Condition} Armijo Condition的弊端。

Goldstein Condition \text{Goldstein Condition} Goldstein Condition的弊端

即便 Goldstein Condition \text{Goldstein Condition} Goldstein Condition缓解了 Armijo Condition \text{Armijo Condition} Armijo Condition的弊端。但其自身也同样存在弊端当参数 C \mathcal C C接近 1 2 \begin{aligned}\frac{1}{2}\end{aligned} 21时,上下界均会朝着中心轴 f ( x k ) + 1 2 [ ∇ f ( x k ) ] T P k ⋅ α \begin{aligned}f(x_k) + \frac{1}{2} [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha\end{aligned} f(xk)+21[f(xk)]TPkα方向靠拢。最终可能得到如下效果:

  • 虽然这里描述的 ϕ ( α ) \phi(\alpha) ϕ(α)范围还比较优秀,但这只是特例。在两条绿线之间的夹角极小时,我们映射出的 ϕ ( α ) \phi(\alpha) ϕ(α)范围以及对应的 α \alpha α范围都非常小,后面可能导致其将一些优质的 α \alpha α结果给过滤掉。
  • 但与 Armijo Condition \text{Armijo Condition} Armijo Condition相比, Goldstein Condition \text{Goldstein Condition} Goldstein Condition确实将选择范围集中在 ϕ ( α ) \phi(\alpha) ϕ(α)的核心位置,而不是数量少的,较偏的 ϕ ( α ) \phi(\alpha) ϕ(α)位置上。
    Goldstein Condition的弊端

下一节针对 Glodstein Condition \text{Glodstein Condition} Glodstein Condition C \mathcal C C值过于接近 1 2 \begin{aligned}\frac{1}{2}\end{aligned} 21而导致优质 α \alpha α结果被误杀的情况,我们介绍 Wolfe Condition \text{Wolfe Condition} Wolfe Condition

相关参考:
【优化算法】线搜索方法-步长-Glodstein Condition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/76949.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码

WebRTC 之音视频同步

在网络视频会议中&#xff0c; 我们常会遇到音视频不同步的问题&#xff0c; 我们有一个专有名词 lip-sync 唇同步来描述这类问题&#xff0c;当我们看到人的嘴唇动作与听到的声音对不上的时候&#xff0c;不同步的问题就出现了 而在线会议中&#xff0c; 听见清晰的声音是优先…

【安装】阿里云轻量服务器安装Ubuntu图形化界面(端口号/灰屏问题)

阿里云官网链接 https://help.aliyun.com/zh/simple-application-server/use-cases/use-vnc-to-build-guis-on-ubuntu-18-04-and-20-04 网上搜了很多教程&#xff0c;但是我没在界面看到有vnc连接&#xff0c;后面才发现官网有教程。 其实官网很详细了&#xff0c;不过这里还是…

18、springboot默认的配置文件及导入额外配置文件

springboot默认的配置文件及导入额外配置文件 ★ Spring Boot默认加载的配置文件&#xff1a; (1) 类加载路径&#xff08;resources目录&#xff09;application.properties|yml &#xff08;相当于JAR包内&#xff09;optional: classpath:/ &#xff08;2&#xff09;类加…

钉钉对接打通金蝶云星空获取流程实例列表详情(宜搭)接口与其他应收单接口

钉钉对接打通金蝶云星空获取流程实例列表详情&#xff08;宜搭&#xff09;接口与其他应收单接口 对接系统钉钉 钉钉&#xff08;DingTalk&#xff09;是阿里巴巴集团专为中国企业打造的免费沟通和协同的多端平台&#xff0c;提供PC版&#xff0c;Web版和手机版&#xff0c;有考…

Alchemy Catalyst 2023 crack

Alchemy Catalyst 2023 crack Alchemy CATALYST是一个可视化本地化环境&#xff0c;支持本地化工作流程的各个方面。它帮助组织加快本地化进程&#xff0c;比竞争对手更快地进入新市场&#xff0c;并为他们创造新的收入机会。 创建全球影响力 高质量的产品和服务翻译对跨国组织…

网关gateway的简介和搭建过程

目录 1.什么是网关和网关的应用情景 2.网关是如何演化来的&#xff0c;在微服务中有什么作用&#xff1f; 3.网关的基本功能 4.Spring Cloud gateway的发展史 5.和网关类似的功能组件&#xff1a; 6.为什么微服务当中一定要有网关 7.微服务网关的优点 8.gateway的搭建过程…

C#核心知识回顾——19.插入排序

1.插入排序的基本原理 871542639 两个区域 排序区 未排序区 用一个索引值做分水岭 未排序区元素 与排序区元素比较 插入到合适位置 直到未排序区清空 int[] arr { 8, 6, 7, 2, 9, 4 };//第一步//能取出未排序区…

【MySQL】MySQL 数据库的介绍与操作

目录 1. 登录 MySQL 数据库 2. MySQL 介绍 3. 操作数据库 1、创建数据库 2、删除数据库 3、插入数据 4、查找 5、修改数据库 4. 表的操作 1、创建表 2、查看表 3、修改表 4、删除表 写在最后&#xff1a; 1. 登录 MySQL 数据库 指令&#xff1a; mysql -h 127.…

c51单片机16个按键密码锁源代码(富proteus电路图)

注意了&#xff1a;这个代码你是没法直接运行的&#xff0c;但是如果你看得懂&#xff0c;随便改一改不超过1分钟就可以用 #include "reg51.h" #include "myheader.h" void displayNumber(unsigned char num) {if(num1){P10XFF;P10P11P14P15P160;}else if…

大数据概论

1、大数据概念 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合&#xff0c;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 大数据主要解决&#xff0c;海量数据的采集、存储和分…

数据结构10 -查找_树表查找

创建二叉搜索树 二叉搜索树 二叉搜索树是有数值的了&#xff0c;二叉搜索树是一个有序树。 若它的左子树不空&#xff0c;则左子树上所有结点的值均小于它的根结点的值&#xff1b; 若它的右子树不空&#xff0c;则右子树上所有结点的值均大于它的根结点的值&#xff1b; 它…

SQL92 SQL99 语法 Oracle 、SQL Server 、MySQL 多表连接、Natural 、USING

SQL92 VS SQL 99 语法 92语法 内连接 from table1&#xff0c; table2 where table1.col table2.col 外连接 放在 从表 左连接&#xff1a; from table1&#xff0c; table2 where table1.col table2.col() 右连接&#xff1a; from table1&#xff0c; table2 where table…

解决layui框架的radio属性不显示失效问题

废话不多说 直接开干&#xff01; 1.问题描述使用layui时 2.不显示问题 纠结半天 忘记插件要刷新 步骤 3、解决方法就是&#xff1a;使用form.render() 刷新请求的界面 <script type"text/javascript">//刷新界面 所有元素layui.use(form,function(){var form …

SpringBoot 日志文件

一、日志的作用 日志是程序的重要组成部分&#xff0c;想象一下&#xff0c;如果程序报错了&#xff0c;不让你打开控制台看日志&#xff0c;那么你能找到报错的原因吗 答案是否定的&#xff0c;写程序不是买彩票&#xff0c;不能完全靠猜&#xff0c;因此日志对于我们来说&a…

MySQL语法2

DQL语句介绍 DQL是数据查询语言&#xff0c;用来查询数据库中表的记录 DQL-基本查询语句 SELECT 字段列表 FROM 表名列表 WHERE 条件列表 GROUP BY 分组字段列表 HAVIMG 分组后条件列表 ORDER BY 排列字段列表 LIMIT 分页参数 讲解过程&#xff1a;基本查询、条件查询…

【C语言进阶篇】关于指针的八个经典笔试题(图文详解)

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏:《C语言初阶篇》 《C语言进阶篇》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 &#x1f4cb; 前言&#x1f4ac; 指针笔试题&#x1f4ad; 笔试题 1&#xff1a;✅ 代码解析⁉️ 检验结果&…

Delphi Architect Crack,部署支持Swagger

Delphi Architect Crack,部署支持Swagger 单一代码库-用更少的编码工作为所有主要平台创建应用程序。写一次&#xff0c;到处编译。 Windows-使用最新的用户界面控件、WinRT API和HighDPI相关功能&#xff0c;使Windows的VCL应用程序现代化。 远程桌面-使用改进的VCL和IDE远程桌…

【ONE·Linux || 基础IO(二)】

总言 文件系统与动静态库相关介绍。 文章目录 总言2、文件系统2.1、背景知识2.2、磁盘管理2.2.1、磁盘文件系统图2.2.2、inode与文件名 2.3、软硬链接 3、动静态库3.1、站在编写库的人的角度&#xff1a;如何写一个库&#xff1f;3.1.1、静态库制作3.1.3、动态库制作 3.2、站在…

第一百二十二天学习记录:C++提高:STL-vector容器(上)(黑马教学视频)

vector基本概念 功能&#xff1a; vector数据结构和数组非常相似&#xff0c;也称为单端数组 vector与普通数组区别&#xff1a; 不同之处在于数组是静态空间&#xff0c;而vector可以动态扩展 动态扩展&#xff1a; 并不是在原空间之后续接新的空间&#xff0c;而是找更大的内…