【梯度下降|链式法则】卷积神经网络中的参数是如何传输和更新的？

文章目录

【梯度下降|链式法则】卷积神经网络中的参数是如何传输和更新的？
1. 什么是梯度？
2.梯度下降法（Gradient Descent）
3. 链式法则（Chain Rule）
4. 梯度下降法的变种
- 批量梯度下降（Batch Gradient Descent）
- 随机梯度下降（Stochastic Gradient Descent, SGD）
- 小批量梯度下降（Mini-batch Gradient Descent）
总结

1. 什么是梯度？

在深度学习中，梯度是损失函数相对于模型参数的偏导数。梯度表示损失函数在参数空间中的变化率，指示出在参数值上的变化对损失函数值的影响。模型通过计算梯度来更新参数，从而最小化损失函数。

梯度的含义: 梯度是损失函数的局部导数，表明某个参数如何影响损失函数。若梯度为正，说明损失函数随着该参数的增大而增大，若为负，则表明损失函数随着该参数的增大而减小。
数学公式：对于某个参数 $θ$ ，梯度 $\nabla J (θ)$ 是损失函数 $J (θ)$ 对 $θ$ 的偏导数：

2.梯度下降法（Gradient Descent）

梯度下降法是一种通过迭代优化算法来寻找损失函数最小值的方法。模型通过计算损失函数相对于模型参数的梯度，沿着梯度的反方向更新参数，逐步逼近损失函数的最小值。

梯度下降法公式

梯度下降的核心公式是：
在这里插入图片描述

$θ$ ：模型参数（如权重和偏置）。
$η$ ：学习率（learning rate），控制更新步长的大小。
$\nabla J (θ)$ ：损失函数 $J (θ)$ 对参数 $θ$ 的梯度。

学习率控制每次更新的步长。如果学习率太大，可能导致错过最优解；如果学习率太小，训练过程将非常缓慢。

梯度下降的流程

（1）初始化模型参数。
（2）计算损失函数对参数的梯度。
（3）根据梯度的反方向更新参数。
（4）重复迭代，直到找到损失函数的局部或全局最小值。

代码示例：简单的梯度下降法

import torch# 定义参数并启用梯度计算
x = torch.tensor([2.0], requires_grad=True)  # 模型参数
y_true = torch.tensor([4.0])  # 目标值# 定义简单的损失函数 (MSE)
loss = (x - y_true) ** 2# 计算梯度
loss.backward()  # 反向传播计算梯度
print(f'梯度: {x.grad.item()}')# 使用梯度下降法更新参数
learning_rate = 0.1
x.data = x.data - learning_rate * x.grad.data  # 更新参数
print(f'更新后的参数: {x.item()}')

3. 链式法则（Chain Rule）

链式法则是微积分中的一种技术，它用于计算复合函数的导数。深度学习中的反向传播算法就是基于链式法则来计算梯度的。

如果一个函数由多个嵌套函数组成，比如：
在这里插入图片描述
根据链式法则，函数 $f$ 对 $x$ 的导数为：

在神经网络中，链式法则用于从输出层到输入层逐层计算梯度，每一层的梯度依赖于其后层的梯度。

链式法则在神经网络中的应用

在神经网络中，假设有三层网络，损失函数为 $L$ ，每一层的激活函数为 $a (l)$ ，权重为 $W (l)$ ，则通过链式法则，我们可以逐层计算损失函数对每一层权重的梯度：

从输出层开始：
逐层回传：

这种逐层计算梯度的过程就是反向传播（Backpropagation），它有效地使用了链式法则计算每个参数的梯度。

代码示例：链式法则在 PyTorch 中的实现

import torch# 假设一个简单的神经网络层：y = Wx + b
W = torch.tensor([2.0], requires_grad=True)  # 权重
b = torch.tensor([1.0], requires_grad=True)  # 偏置
x = torch.tensor([3.0])  # 输入# 前向传播
y = W * x + b# 定义损失函数 (比如平方误差)
loss = (y - 10) ** 2# 反向传播计算梯度
loss.backward()# 输出梯度
print(f'W 的梯度: {W.grad.item()}')
print(f'b 的梯度: {b.grad.item()}')

在这个例子中，通过链式法则，PyTorch 自动计算了损失函数相对于 $W$ 和 $b$ 的梯度。