DeepSeek-R1模型的数学原理（说人话）

文章目录

1、什么是GRPO
2、数学原理
3、比喻
4、流程总结

🍃作者介绍：双非本科大四网络工程专业在读，阿里云专家博主，前三年专注于Java领域学习，擅长web应用开发，目前已转行人工智能领域。
🦅个人主页：@逐梦苍穹
📕所属专栏：人工智能
🌻gitee地址：xzl的人工智能代码仓库
✈ 您的一键三连，是我创作的最大动力🌹

最近的DeepSeek-R1模型可谓是火遍全球，男女老少都知道。
在这里插入图片描述

但是它的原理你了解吗？
今天这篇文章就通俗易懂的讲一讲什么是DeepSeek-R1模型使用的GRPO算法。
在这里插入图片描述

1、什么是GRPO

GRPO指的是：群体相对策略优化算法

群体相对策略优化（GRPO）是一种强化学习（RL）算法，专门设计用于增强大规模语言模型（LLM）的推理能力。

与传统的RL方法不同，后者通常依赖外部评估者（批评者）来引导学习，GRPO通过评估一组响应之间的相对关系来优化模型。

这种方法提高了训练效率，使GRPO在需要复杂问题解决和长链思维的推理任务中表现尤为出色。

传统的RL方法，如近端策略优化（PPO），在应用于LLM的推理任务时面临着显著挑战：

1.依赖批评模型

PPO需要一个独立的批评模型来估计每个响应的价值，这增加了内存和计算的负担。

训练批评模型复杂且容易出错，尤其是对于需要主观或细致评估的任务。

2.高计算成本

RL管道通常需要大量计算资源来反复评估和优化响应。

将这些方法扩展到大型LLM时，计算成本进一步增加。

3.可扩展性问题

绝对奖励评估在处理多样化任务时困难，难以在不同推理领域间实现泛化。

GRPO如何解决这些挑战？

无批评模型优化：GRPO通过比较一组响应之间的相对关系，消除了对批评模型的需求，从而显著减少了计算开销。
相对评估：GRPO不依赖外部评估者，而是利用群体内部的动态来评估一个响应相较于同批次其他响应的表现。
高效训练：通过专注于基于群体的优势，GRPO简化了奖励估算过程，使其更快、更具可扩展性，适用于大型模型。

2、数学原理

DeepSeek-R1模型采用了组相对策略优化（GRPO）算法，以强化学习的方式提升推理能力。

其目标函数（ $J_{\text{GRPO}}(\theta)$ ）的数学表达式如下：

$J_{\text{GRPO}}(\theta) = \mathbb{E}[q \sim \mathcal{P}(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta \, \text{old}}(O|q)] \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} A_i, \, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) \right), D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} - \log \left( \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} \right) - 1$
各符号的含义如下：

$q$ ：查询（query），模型需要回答的问题。
$o_i$ ：模型生成的第 $i$ 个输出。
$G$ ：每次训练中生成的输出数量。
$\pi_\theta(o_i|q)$ ：当前策略下，给定查询 $q$ 时生成输出 $o_i$ 的概率。
$\pi_{\theta_{\text{old}}}(o_i|q)$ ：旧策略下，给定查询 $q$ 时生成输出 $o_i$ 的概率。
$A_i$ ：第 $i$ 个输出的优势函数值，衡量该输出相对于其他输出的优劣。
$\epsilon$ ：用于裁剪的阈值，防止策略更新过大。
$\beta$ ：KL散度的权重系数，控制策略与参考策略之间的差异。
$D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}})$ ：当前策略与参考策略之间的KL散度，衡量两者的差异。

该目标函数的核心思想是：

最大化高奖励输出的概率：通过优势函数 $A_i$ 和策略比率 $\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}$ ，鼓励模型生成高奖励的输出。
限制策略更新幅度：使用裁剪函数（clip）限制策略比率的范围，防止策略更新过大导致训练不稳定。
控制策略与参考策略的差异：通过KL散度项，限制当前策略与参考策略之间的差异，避免策略偏离过远。