【李沐深度学习笔记】基础优化方法

课程地址和说明

基础优化方法p2
本系列文章是我学习李沐老师深度学习系列课程的学习笔记，可能会对李沐老师上课没讲到的进行补充。

在讲具体的线性回归实现之前，要先讲一下基础的优化模型的方法

当模型没有显示解（最优解）的时候，用梯度下降法迭代到局部最优值（贪心原则）

首先挑选一个随机初始值 $\overrightarrow{w_{0}}$ ；
不断更新 $w_{0}$ 使得其接近最优解，即 $\overrightarrow{w_{t}}= \overrightarrow{w_{t-1}}-\eta \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}}$ ，其中， $\overrightarrow{w_{t-1}}$ 代表时刻 $t$ 上一时刻 $t - 1$ 对应的 $\overrightarrow{w}$ 的值， $\eta$ 是标量，为学习率，是人为设定的（超参数是需要人为指定的值）， $\frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}}$ 代表的是 $t - 1$ 时刻对应的梯度向量的方向；
下图为某多元函数的等高线图：

梯度向量的方向是使得函数值增加最快的方向，即与等高线正交的图中的红色向量，而梯度的反方向（即负梯度向量）是使得函数值减少的最快的方向即图中的黄色箭头所指向的方向（所以表达式中要对梯度取负号），也就是按照负梯度方向可以找到函数的极小值，而 $\eta$ 学习率代表的是沿着负梯度方向一次走多远，比如：随机初始到 $\overrightarrow {w_{0}}$ 这个点（以向量形式表示），则按照学习率乘以负梯度迭代到 $\overrightarrow {w_{1}}$