【机器学习】梯度下降算法

梯度下降算法

这篇博客更加详细，以下只是我个人的理解

梯度下降算法原理讲解——机器学习-CSDN博客

梯度下降算法是一种优化算法，通过梯度下降找到函数最小值时的自变量值。

其基本思想是沿着梯度方向的反方向更新参数，直到逼近函数的极值或者函数值足够小，或者是到达最大迭代次数。

目标函数
求目标函数的导数和梯度值
沿着梯度方向的反方向更新参数
重复直到满足条件

以线性回归为例，通过找均方差损失函数最小值，得到最优的权重。

目标函数就是损失函数，求其导数的到关于权重的线性方程，根据权重的具体的数值求得当前的梯度值，得到梯度值后沿着梯度的反方向更新权重参数，而后重复，直到损失函数的损失值满足预设的条件。

关于导数和梯度值。

导数
导数值的大小是沿着一个点的切线的斜率值，描述的函数在该点的瞬时变化率，值越大，函数变化越快。

导数的方向是函数值增加最快的方向。如开口向上的二次函数
图中的两个向量的方向就对应了抛物线中的点的导数的方向，
沿着方向，函数值增加最快（这里的向量只代表导数方向）

在这里插入图片描述
梯度
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向
如在a(x, y) = x² / 4 + y² / 3函数中
梯度就是对各个变量求偏导，而后合并为一个向量，有大小有方向。
通过对图像做平行于xoz和yoz的平面，平面和函数相交的抛物线就是一个变量不变，另一变量变化，导致函数值变化的函数图像。（可以理解为降维到两个变量时函数的变化）通过分别对其变量求导数，可以得到两个向量，对向量进行运算，就可以得到函数的梯度，是一个有大小有方向的向量。
单个变量来看，沿着向量的方向，函数值变大最快，同时考虑多个变量，就是对多个变量的导数方向进行合并，做向量加法，得到的向量就是该点的梯度。
沿着该梯度，函数值增加最快，分解到各自的维度，就是多个变量一同增加减少，参数的值也就更新了。
沿着梯度方向的反方向，不断的迭代收敛，最终会逼近函数的最小值，最小值的变量，也就是所求的权重值。
a(x, y) = x² / 4 + y² / 3这里的x，y就相当于两个权重 $w_1,w_2$