【复现DeepSeek-R1之Open R1实战】系列4：SFT和GRPO源码逐行深度解析（上）（3万字长文，从零开始到入门，包含详细的拓展基础知识）

1 前言
- 1.1 Open R1项目简介
- 1.2 主要步骤
- 1.3 原理图
2 基础知识
- 2.1 Vocabulary和Tokenizer
- - 2.1.1 vocab.json, tokenizer.json, tokenizer_config.json
  - 2.1.2 什么是tokenizer
  - 2.1.3 在哪一步将tokenizer转成embedding
  - 2.1.4 tokenizer的代码实现
- 2.2 SFT和GRPO
- - 2.2.1 SFT
  - 2.2.2 GRPO
  - 2.2.3 关键对比
  - 2.2.4 如何选择
- 2.3 数据集介绍
- - 2.3.1 数据构成与来源
  - 2.3.2 生成与优化过程
  - 2.3.3 应用场景与效果
  - 2.3.4 与其他数据集的对比
  - 2.3.5 获取与使用
- 2.4 Base模型介绍
- - 2.4.1 关键特性
  - 2.4.2 架构与技术细节
  - 2.4.3 应用场景
- 2.5 LoRA
- - 2.5.1 核心概念
  - 2.5.2 主要优势
  - 2.5.3 使用场景
  - 2.5.4 实现细节
  - 2.5.5 示例代码片段
3 源码分析

1 前言

本文先介绍HuggingFace的Open-R1项目，这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果，从而推进开源推理模型发展。通过构建Open-R1，阐明强化学习如何提升推理能力的，同时向开源社区分享可复现的项目，为未来基于这些技术开发新模型奠定基础。

然后，再介绍一些大模型相关的概念和基础知识，如Tokenizer、SFT和GRPO等，便于大家深入去了解。

掌握了这些基础概念和知识之后，我们再深入源码，逐行逐模块去分析，从而达到学会就能用的目的。

最后，我们针对现状做了一些延伸思考。

1.1 Open R1项目简介

该项目设计简单，主要包含以下部分：

src/open_r1: 包含用于训练和评估模型以及生成合成数据的脚本：
- grpo.py: 使用GRPO在给定数据集上训练模型。
- sft.py: 在数据集上对模型进行简单的SFT（监督微调）。
- evaluate.py: 在R1基准上评估模型的表现。
- generate.py: 使用distilabel从模型生成合成数据。
Makefile: 包含利用上述脚本轻松运行R1流水线中每个步骤的命令。

1.2 主要步骤

研究者主要是使用DeepSeek-R1技术报告作为指南，该报告大致可以分为三个主要步骤，如下图所示：

步骤1： 通过从DeepSeek-R1中提取高质量语料库来复制R1-Distill模型。
步骤2： 复制DeepSeek用于创建R1-Zero的纯RL（强化学习）流水线。这可能涉及策划新的、大规模的数学、推理和代码数据集。
步骤3： 展示我们可以通过多阶段训练从基础模型过渡到经过RL调优的模型。

1.3 原理图

DeepSeek-R1的整体原理图如下所示：

原理图

2 基础知识

在分析源码之前，我们先了解一些基本概念和知识，以便于我们深入理解代码。

2.1 Vocabulary和Tokenizer

2.1.1 vocab.json, tokenizer.json, tokenizer_config.json

vocab.json, tokenizer.json, tokenizer_config.json 是自然语言处理（NLP）任务中，特别是使用预训练模型时常见的文件格式，它们与文本的分词（tokenization）过程密切相关。

vocab.json

作用：这个文件通常包含了词汇表的信息，即模型能够识别的所有单词或子词单元（subword units）。每个单词或子词对应一个唯一的ID。
内容：它是一个字典格式的文件，键是词汇表中的单词或子词，值是它们对应的唯一整数标识符。

tokenizer.json

作用：此文件详细描述了如何将原始文本转换为模型输入的tokens序列。它不仅包含词汇表信息，还包括了特殊字符、添加的规则等。
内容：该文件可能包含更复杂的结构化信息，用于定义具体的分词逻辑和算法细节。

tokenizer_config.json

作用：提供了配置参数，用于指导如何初始化或加载tokenizer对象。例如，最大序列长度、是否添加特殊的开始/结束标记等。
内容：包括了一系列配置选项，帮助正确地设置和调整tokenizer的行为。

2.1.2 什么是tokenizer

Tokenizer是NLP中用来将文本分割成较小部分（如单词、子词或字符）的过程或工具。Tokenizer的主要目标是将人类可读的文本转换为机器可理解的形式——通常是整数序列。这一步骤对于准备数据以供机器学习模型（尤其是深度学习模型）训练和推理至关重要。

不同的模型和框架可能采用不同的方式来实现和存储tokenizer的相关信息，但上述提到的文件类型是较为常见的表示形式。通过这些文件，可以确保在不同环境中使用相同的分词策略，从而保证模型输入的一致性和稳定性。

2.1.3 在哪一步将tokenizer转成embedding

将tokenizer转换为embedding（嵌入）的过程通常发生在文本预处理阶段之后，具体来说是在你已经将文本通过tokenizer分割成tokens（标记）之后。以下是这一过程的详细步骤：

文本分词：首先，原始文本通过tokenizer被分割成一个个token。这些token可以是单词、子词或字符，这取决于所使用的tokenizer类型和配置。
转换为ID序列：接下来，每个token会被映射到一个唯一的整数ID。这个映射关系通常由vocab.json文件定义，其中包含了词汇表中所有token及其对应的ID。
转换为Embedding：一旦你有了token的ID序列，下一步就是将这些ID转换为向量表示，即embedding。这一步通常是通过查找预先训练好的嵌入矩阵来完成的，该矩阵中的每一行对应于词汇表中的一个token的向量表示。在深度学习模型中，比如Transformer架构下的BERT等，这种转换通常是由模型的第一层——嵌入层（Embedding Layer）自动完成的。
- 嵌入矩阵：是一个大小为[V, D]的矩阵，其中V是词汇表的大小，D是每个token的嵌入维度。
- 查找操作：对于输入的每一个token ID，嵌入层都会在这个矩阵中找到相应的行作为该token的向量表示。

2.1.4 tokenizer的代码实现

# 假设你已经有了token IDs
token_ids = [123, 456, 789]# 加载预训练模型和tokenizer
model = ... # 初始化你的模型
embeddings = model.get_input_embeddings()  # 获取嵌入层# 将token IDs转换为embeddings
token_embeddings = embeddings(torch.tensor(token_ids))

这里，get_input_embeddings()方法返回了模型的嵌入层，然后通过传递token IDs给这个嵌入层，你可以得到每个token对应的embedding向量。

2.2 SFT和GRPO

SFT（Supervised Fine-Tuning，监督微调） 和 GRPO（Group Relative Policy Optimization，组相对策略优化） 是两种在自然语言处理（NLP）领域中用于改进预训练语言模型性能的技术。

2.2.1 SFT

1. 核心概念

目标：通过监督学习对预训练模型（如GPT、BERT等）进行二次训练，使其适应特定任务。
数据依赖：需要高质量的标注数据（输入-输出配对），例如分类标签、翻译对照文本等。

2. 流程

预训练：模型在大规模无监督数据（如网页文本）上学习通用语言模式。
微调：在特定任务的标注数据上调整模型参数（如对话生成、文本分类），优化任务相关目标函数。

3. 特点

优点：
- 高效迁移：利用预训练模型的通用能力，减少从头训练的资源消耗。
- 可控性高：标注数据直接指导模型学习目标任务的分布。
缺点：
- 标注成本高：需大量人工标注数据。
- 泛化局限：过度依赖标注数据，可能无法处理未见过的任务形式。

4. 典型应用

文本生成：定制化对话模型（如客服机器人）。
分类任务：情感分析、垃圾邮件检测。
翻译模型：基于双语对照数据的微调。

2.2.2 GRPO

关于强化学习更详细的介绍，可以参考这篇博文：【DeepSeek-R1背后的技术】系列三：强化学习（Reinforcement Learning, RL）

1. 核心概念

目标：通过多策略组对比优化智能体策略，属于强化学习方法。
核心思想：将智能体分为多个组，每组采用不同策略，通过组间表现的相对评估驱动策略改进。

2. 流程

初始化策略组：随机生成多组策略（如不同参数初始化）。
环境交互：各组在环境中运行，收集轨迹数据与奖励信号。
相对评估：比较各组平均表现，淘汰低效策略组。
策略更新：保留高效组，并通过交叉或梯度更新生成新策略组。
迭代优化：重复直至策略收敛。

3. 特点

优点：
- 多样性探索：多组策略并行，避免陷入局部最优。
- 鲁棒性：相对评估减少单一策略波动的影响。
缺点：
- 计算开销大：需并行训练多组策略，资源消耗高。
- 实现复杂：组间比较机制和策略更新规则设计难度较高。

4. 典型应用

复杂决策场景：游戏AI（如Dota、星际争霸的多人协作）。
机器人控制：多关节机械臂的路径规划。
自动驾驶：动态交通环境下的多策略决策。

2.2.3 关键对比

维度	SFT	GRPO
学习范式	监督学习（有明确标注）	强化学习（基于环境反馈）
数据需求	高质量标注数据	环境交互产生的奖励信号
计算成本	较低（单任务微调）	较高（多组策略并行训练）
适用场景	静态任务（如分类、生成）	动态决策任务（如控制、博弈）
核心挑战	标注数据不足导致过拟合	策略多样性维护与计算效率平衡

2.2.4 如何选择

选择SFT：任务目标明确、标注数据充足，且需快速适配预训练模型（如构建垂直领域聊天机器人）。
选择GRPO：任务环境复杂、需动态探索最优策略，且具备并行计算资源（如训练游戏AI的多人协作策略）。

两者可结合使用（如先用SFT初始化策略，再用GRPO优化），以平衡监督学习的高效性与强化学习的探索能力。

2.3 数据集介绍

Bespoke-Stratos-17k 是一个专注于推理任务的高质量合成数据集，旨在通过大语言模型（如 DeepSeek-R1）生成的推理轨迹，提升小模型的数学、编程和逻辑推理能力。

2.3.1 数据构成与来源

Bespoke-Stratos-17k 包含 17,000 条样本，涵盖以下三类问题：

编程问题（5,000 条）：来自 APPs 和 TACO 等编程数据集，涉及代码生成与调试。
数学问题（10,000 条）：选自 NuminaMATH 数据集的 AIME、MATH 和 Olympiads 子集，覆盖代数、几何、组合数学等高难度题型。
科学与谜题（1,000 条）：源自 STILL-2 数据集，包含科学推理和逻辑谜题。

所有问题均通过 DeepSeek-R1 生成详细的推理轨迹（包括逐步分析和解决方案），并经过严格过滤确保质量。

2.3.2 生成与优化过程

高效生成：利用 Bespoke Curator 项目管理生成流程，结合 DeepSeek-R1 仅用 1.5 小时 完成生成，成本控制在 800 美元 以内。
拒绝采样与验证：引入 Ray 集群 加速代码验证，并通过 gpt-4o-mini 过滤错误答案，将数学解题的正确率从 25% 提升至 73%。
格式优化：DeepSeek-R1 生成的推理轨迹无需额外格式化，简化了数据处理流程。

2.3.3 应用场景与效果

该数据集主要用于 知识蒸馏，将大模型的推理能力迁移至小模型（如 Qwen、Llama 等）。例如，通过监督微调（SFT）训练的小模型，在数学和编程任务中表现接近 DeepSeek-Distill-Qwen-7B 等蒸馏模型。

其特点是 多领域覆盖 和 高质量推理轨迹，能够帮助模型建立系统化的逻辑分析能力，而非仅依赖最终答案。

2.3.4 与其他数据集的对比

Bespoke-Stratos-17k 是开源社区中较早专注于推理轨迹的数据集之一。与后续发布的 OpenR1-Math-220k（包含 22 万条数学推理数据）相比，它的优势在于 跨领域多样性（数学、编程、谜题）和 轻量化生成流程，但规模较小。

2.3.5 获取与使用

数据集可通过 Hugging Face 平台访问（链接），格式为 Parquet 文件，包含问题、推理步骤和最终答案的标准化结构，适合直接用于模型微调和评估。

2.4 Base模型介绍

Qwen2.5-1.5B-Instruct 是阿里云开发的 Qwen2.5 系列语言模型中的一个版本，专为指令理解和执行进行了优化。以下是该模型的一些关键特性、架构细节以及其应用场景。

2.4.1 关键特性

参数规模: Qwen2.5-1.5B-Instruct 模型包含约 15亿（1.5B）个参数，这使得它在保持较高性能的同时，也能在资源受限的环境中高效运行。
支持的语言: 支持超过 29 种语言，包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文等，这使得它非常适合多语言任务的应用场景。
上下文长度: 能够处理高达 32,768 tokens 的上下文长度，并能生成最多 8,192 tokens 的内容，这对于长文档的理解和生成任务非常有用。
增强的功能:
- 指令执行能力: 在理解并执行复杂指令方面有了显著提升，能够更好地处理长文本生成任务。
- 结构化数据处理: 提升了对结构化数据（如表格、JSON）的理解和生成能力。
- 角色扮演和聊天机器人条件设置: 对各种系统提示具有更高的适应性，增强了角色扮演实现和聊天机器人的条件设置功能。

2.4.2 架构与技术细节

类型: 因果语言模型（Causal Language Model），这意味着它根据前面的词元预测下一个词元。
架构: 基于 Transformer 结构，采用了 RoPE（旋转位置嵌入）、SwiGLU（门控线性单元）、RMSNorm（均方根归一化）、注意力机制中的 QKV 偏置以及共享词嵌入等技术。
层数与头数: 包含 28 层，每个查询使用 12 个注意力头，而键值对则使用 2 个注意力头（GQA）。

2.4.3 应用场景

对话系统: 由于其强大的指令理解和执行能力，Qwen2.5-1.5B-Instruct 非常适合用于构建智能对话系统或聊天机器人。
文本生成: 可以用于创意写作、自动摘要、翻译等多种文本生成任务。
编程辅助: 它还可以帮助开发者进行代码编写、调试和问题解答，特别是在 CodeQwen1.5 发布后，吸引了大量依赖该模型完成编程任务的用户。
教育和技术支持: 在教育领域，它可以作为辅导工具，帮助学生解决数学、科学等问题；在技术支持方面，可以提供自动化的问题解决方案。

2.5 LoRA

LoRA（Low-Rank Adaptation） 是一种用于微调大规模预训练模型的高效方法，特别适用于资源受限的环境。LoRA 的核心思想是通过低秩矩阵分解来减少需要调整的参数数量，从而在保持模型性能的同时显著降低计算和存储成本。以下是对 LoRA 的详细介绍：

2.5.1 核心概念

低秩矩阵分解
LoRA 基于一个假设：预训练模型中的权重更新通常是低秩的。这意味着，与全量微调相比，只需要少量的低秩矩阵就能有效地捕捉到微调所需的参数变化。
增量更新
LoRA 不直接修改预训练模型的权重，而是为每个需要微调的层引入一对可训练的低秩矩阵 ( A ) 和 ( B )，并通过它们的乘积 ( AB ) 来生成权重更新。具体来说，原始权重 ( W_0 ) 被更新为 ( W = W_0 + BA )，其中 ( A ) 和 ( B ) 是低秩矩阵。

2.5.2 主要优势

节省内存和计算资源：
- 由于只需要存储和更新低秩矩阵，而不是整个模型的权重，因此显著减少了内存占用。
- 计算复杂度也大大降低，使得在资源有限的设备上运行大型模型成为可能。
高效的微调过程：
- LoRA 可以快速适应新任务或领域，而不需要从头开始重新训练整个模型。
- 由于只需要训练少量参数，收敛速度通常更快。
保留预训练知识：
- 通过仅添加增量更新而不改变原始权重，LoRA 有助于保留模型的预训练知识，避免过度拟合。

2.5.3 使用场景

LoRA 特别适用于以下几种情况：

多任务学习：当需要在多个相关任务之间共享一个基础模型时，LoRA 可以帮助快速适应每个任务的具体需求。
领域适应：在特定领域内微调通用模型时，LoRA 提供了一种轻量级的方法来实现高效适应。
资源受限的环境：在边缘设备、移动设备或其他计算资源有限的环境中，LoRA 可以显著降低模型的运行成本。

2.5.4 实现细节

在实际应用中，使用 LoRA 通常涉及以下几个步骤：

定义目标模块：
- 指定哪些层或模块需要进行 LoRA 微调。例如，在 Transformer 模型中，通常会针对注意力机制的权重进行微调。
初始化低秩矩阵：
- 为每个目标模块初始化一对低秩矩阵 ( A ) 和 ( B )。这些矩阵的大小由秩 ( r ) 决定，通常是一个较小的值（如 8 或 16）。
训练过程：
- 在训练过程中，只更新 ( A ) 和 ( B )，而保持原始模型权重不变。
- 使用适当的优化器（如 Adam）和学习率调度策略来优化这些矩阵。
推理阶段：
- 在推理阶段，将 ( BA ) 加到原始权重上，形成新的权重矩阵，并使用这个更新后的模型进行预测。

2.5.5 示例代码片段

以下是使用 Hugging Face 的 transformers 库和 peft（Parameter-Efficient Fine-Tuning）库进行 LoRA 微调的一个简化示例：

from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
from peft import LoraConfig, get_peft_model# 定义LoRA配置
lora_config = LoraConfig(r=16,  # 秩lora_alpha=32,  # 缩放因子target_modules=["query", "value"],  # 目标模块lora_dropout=0.05  # dropout率
)# 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained('bert-base-uncased')# 应用LoRA
model = get_peft_model(model, lora_config)# 设置训练参数
training_args = TrainingArguments(output_dir="./results",num_train_epochs=3,per_device_train_batch_size=8,per_device_eval_batch_size=8,warmup_steps=500,weight_decay=0.01,logging_dir='./logs',
)# 创建Trainer并开始训练
trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset,eval_dataset=eval_dataset,
)
trainer.train()