目录
- 1 前言
- 1.1 Open R1项目简介
- 1.2 主要步骤
- 1.3 原理图
- 2 基础知识
- 2.1 Vocabulary和Tokenizer
- 2.1.1 vocab.json, tokenizer.json, tokenizer_config.json
- 2.1.2 什么是tokenizer
- 2.1.3 在哪一步将tokenizer转成embedding
- 2.1.4 tokenizer的代码实现
- 2.2 SFT和GRPO
- 2.2.1 SFT
- 2.2.2 GRPO
- 2.2.3 关键对比
- 2.2.4 如何选择
- 2.3 数据集介绍
- 2.3.1 数据构成与来源
- 2.3.2 生成与优化过程
- 2.3.3 应用场景与效果
- 2.3.4 与其他数据集的对比
- 2.3.5 获取与使用
- 2.4 Base模型介绍
- 2.4.1 关键特性
- 2.4.2 架构与技术细节
- 2.4.3 应用场景
- 2.5 LoRA
- 2.5.1 核心概念
- 2.5.2 主要优势
- 2.5.3 使用场景
- 2.5.4 实现细节
- 2.5.5 示例代码片段
- 3 源码分析
1 前言
本文先介绍HuggingFace的Open-R1项目,这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果,从而推进开源推理模型发展。通过构建Open-R1,阐明强化学习如何提升推理能力的,同时向开源社区分享可复现的项目,为未来基于这些技术开发新模型奠定基础。
然后,再介绍一些大模型相关的概念和基础知识,如Tokenizer、SFT和GRPO等,便于大家深入去了解。
掌握了这些基础概念和知识之后,我们再深入源码,逐行逐模块去分析,从而达到学会就能用的目的。
最后,我们针对现状做了一些延伸思考。
1.1 Open R1项目简介
该项目设计简单,主要包含以下部分:
- src/open_r1: 包含用于训练和评估模型以及生成合成数据的脚本:
- grpo.py: 使用GRPO在给定数据集上训练模型。
- sft.py: 在数据集上对模型进行简单的SFT(监督微调)。
- evaluate.py: 在R1基准上评估模型的表现。
- generate.py: 使用distilabel从模型生成合成数据。
- Makefile: 包含利用上述脚本轻松运行R1流水线中每个步骤的命令。
1.2 主要步骤
研究者主要是使用DeepSeek-R1技术报告作为指南,该报告大致可以分为三个主要步骤,如下图所示:
-
步骤1: 通过从DeepSeek-R1中提取高质量语料库来复制R1-Distill模型。
-
步骤2: 复制DeepSeek用于创建R1-Zero的纯RL(强化学习)流水线。这可能涉及策划新的、大规模的数学、推理和代码数据集。
-
步骤3: 展示我们可以通过多阶段训练从基础模型过渡到经过RL调优的模型。
1.3 原理图
DeepSeek-R1的整体原理图如下所示:
2 基础知识
在分析源码之前,我们先了解一些基本概念和知识,以便于我们深入理解代码。
2.1 Vocabulary和Tokenizer
2.1.1 vocab.json, tokenizer.json, tokenizer_config.json
vocab.json
, tokenizer.json
, tokenizer_config.json
是自然语言处理(NLP)任务中,特别是使用预训练模型时常见的文件格式,它们与文本的分词(tokenization)过程密切相关。
- vocab.json
- 作用:这个文件通常包含了词汇表的信息,即模型能够识别的所有单词或子词单元(subword units)。每个单词或子词对应一个唯一的ID。
- 内容:它是一个字典格式的文件,键是词汇表中的单词或子词,值是它们对应的唯一整数标识符。
- tokenizer.json
- 作用:此文件详细描述了如何将原始文本转换为模型输入的tokens序列。它不仅包含词汇表信息,还包括了特殊字符、添加的规则等。
- 内容:该文件可能包含更复杂的结构化信息,用于定义具体的分词逻辑和算法细节。
- tokenizer_config.json
- 作用:提供了配置参数,用于指导如何初始化或加载tokenizer对象。例如,最大序列长度、是否添加特殊的开始/结束标记等。
- 内容:包括了一系列配置选项,帮助正确地设置和调整tokenizer的行为。
2.1.2 什么是tokenizer
Tokenizer是NLP中用来将文本分割成较小部分(如单词、子词或字符)的过程或工具。Tokenizer的主要目标是将人类可读的文本转换为机器可理解的形式——通常是整数序列。这一步骤对于准备数据以供机器学习模型(尤其是深度学习模型)训练和推理至关重要。
不同的模型和框架可能采用不同的方式来实现和存储tokenizer的相关信息,但上述提到的文件类型是较为常见的表示形式。通过这些文件,可以确保在不同环境中使用相同的分词策略,从而保证模型输入的一致性和稳定性。
2.1.3 在哪一步将tokenizer转成embedding
将tokenizer转换为embedding(嵌入)的过程通常发生在文本预处理阶段之后,具体来说是在你已经将文本通过tokenizer分割成tokens(标记)之后。以下是这一过程的详细步骤:
-
文本分词:首先,原始文本通过tokenizer被分割成一个个token。这些token可以是单词、子词或字符,这取决于所使用的tokenizer类型和配置。
-
转换为ID序列:接下来,每个token会被映射到一个唯一的整数ID。这个映射关系通常由
vocab.json
文件定义,其中包含了词汇表中所有token及其对应的ID。 -
转换为Embedding:一旦你有了token的ID序列,下一步就是将这些ID转换为向量表示,即embedding。这一步通常是通过查找预先训练好的嵌入矩阵来完成的,该矩阵中的每一行对应于词汇表中的一个token的向量表示。在深度学习模型中,比如Transformer架构下的BERT等,这种转换通常是由模型的第一层——嵌入层(Embedding Layer)自动完成的。
- 嵌入矩阵:是一个大小为[V, D]的矩阵,其中V是词汇表的大小,D是每个token的嵌入维度。
- 查找操作:对于输入的每一个token ID,嵌入层都会在这个矩阵中找到相应的行作为该token的向量表示。
2.1.4 tokenizer的代码实现
# 假设你已经有了token IDs
token_ids = [123, 456, 789]# 加载预训练模型和tokenizer
model = ... # 初始化你的模型
embeddings = model.get_input_embeddings() # 获取嵌入层# 将token IDs转换为embeddings
token_embeddings = embeddings(torch.tensor(token_ids))
这里,get_input_embeddings()
方法返回了模型的嵌入层,然后通过传递token IDs给这个嵌入层,你可以得到每个token对应的embedding向量。
2.2 SFT和GRPO
SFT(Supervised Fine-Tuning,监督微调) 和 GRPO(Group Relative Policy Optimization,组相对策略优化) 是两种在自然语言处理(NLP)领域中用于改进预训练语言模型性能的技术。
2.2.1 SFT
1. 核心概念
- 目标:通过监督学习对预训练模型(如GPT、BERT等)进行二次训练,使其适应特定任务。
- 数据依赖:需要高质量的标注数据(输入-输出配对),例如分类标签、翻译对照文本等。
2. 流程
-
预训练:模型在大规模无监督数据(如网页文本)上学习通用语言模式。
-
微调:在特定任务的标注数据上调整模型参数(如对话生成、文本分类),优化任务相关目标函数。
3. 特点
- 优点:
- 高效迁移:利用预训练模型的通用能力,减少从头训练的资源消耗。
- 可控性高:标注数据直接指导模型学习目标任务的分布。
- 缺点:
- 标注成本高:需大量人工标注数据。
- 泛化局限:过度依赖标注数据,可能无法处理未见过的任务形式。
4. 典型应用
- 文本生成:定制化对话模型(如客服机器人)。
- 分类任务:情感分析、垃圾邮件检测。
- 翻译模型:基于双语对照数据的微调。
2.2.2 GRPO
关于强化学习更详细的介绍,可以参考这篇博文:【DeepSeek-R1背后的技术】系列三:强化学习(Reinforcement Learning, RL)
1. 核心概念
- 目标:通过多策略组对比优化智能体策略,属于强化学习方法。
- 核心思想:将智能体分为多个组,每组采用不同策略,通过组间表现的相对评估驱动策略改进。
2. 流程
- 初始化策略组:随机生成多组策略(如不同参数初始化)。
- 环境交互:各组在环境中运行,收集轨迹数据与奖励信号。
- 相对评估:比较各组平均表现,淘汰低效策略组。
- 策略更新:保留高效组,并通过交叉或梯度更新生成新策略组。
- 迭代优化:重复直至策略收敛。
3. 特点
- 优点:
- 多样性探索:多组策略并行,避免陷入局部最优。
- 鲁棒性:相对评估减少单一策略波动的影响。
- 缺点:
- 计算开销大:需并行训练多组策略,资源消耗高。
- 实现复杂:组间比较机制和策略更新规则设计难度较高。
4. 典型应用
- 复杂决策场景:游戏AI(如Dota、星际争霸的多人协作)。
- 机器人控制:多关节机械臂的路径规划。
- 自动驾驶:动态交通环境下的多策略决策。
2.2.3 关键对比
维度 | SFT | GRPO |
---|---|---|
学习范式 | 监督学习(有明确标注) | 强化学习(基于环境反馈) |
数据需求 | 高质量标注数据 | 环境交互产生的奖励信号 |
计算成本 | 较低(单任务微调) | 较高(多组策略并行训练) |
适用场景 | 静态任务(如分类、生成) | 动态决策任务(如控制、博弈) |
核心挑战 | 标注数据不足导致过拟合 | 策略多样性维护与计算效率平衡 |
2.2.4 如何选择
- 选择SFT:任务目标明确、标注数据充足,且需快速适配预训练模型(如构建垂直领域聊天机器人)。
- 选择GRPO:任务环境复杂、需动态探索最优策略,且具备并行计算资源(如训练游戏AI的多人协作策略)。
两者可结合使用(如先用SFT初始化策略,再用GRPO优化),以平衡监督学习的高效性与强化学习的探索能力。
2.3 数据集介绍
Bespoke-Stratos-17k 是一个专注于推理任务的高质量合成数据集,旨在通过大语言模型(如 DeepSeek-R1)生成的推理轨迹,提升小模型的数学、编程和逻辑推理能力。
2.3.1 数据构成与来源
Bespoke-Stratos-17k 包含 17,000 条样本,涵盖以下三类问题:
- 编程问题(5,000 条):来自 APPs 和 TACO 等编程数据集,涉及代码生成与调试。
- 数学问题(10,000 条):选自 NuminaMATH 数据集的 AIME、MATH 和 Olympiads 子集,覆盖代数、几何、组合数学等高难度题型。
- 科学与谜题(1,000 条):源自 STILL-2 数据集,包含科学推理和逻辑谜题。
所有问题均通过 DeepSeek-R1 生成详细的推理轨迹(包括逐步分析和解决方案),并经过严格过滤确保质量。
2.3.2 生成与优化过程
- 高效生成:利用 Bespoke Curator 项目管理生成流程,结合 DeepSeek-R1 仅用 1.5 小时 完成生成,成本控制在 800 美元 以内。
- 拒绝采样与验证:引入 Ray 集群 加速代码验证,并通过 gpt-4o-mini 过滤错误答案,将数学解题的正确率从 25% 提升至 73%。
- 格式优化:DeepSeek-R1 生成的推理轨迹无需额外格式化,简化了数据处理流程。
2.3.3 应用场景与效果
该数据集主要用于 知识蒸馏,将大模型的推理能力迁移至小模型(如 Qwen、Llama 等)。例如,通过监督微调(SFT)训练的小模型,在数学和编程任务中表现接近 DeepSeek-Distill-Qwen-7B 等蒸馏模型。
其特点是 多领域覆盖 和 高质量推理轨迹,能够帮助模型建立系统化的逻辑分析能力,而非仅依赖最终答案。
2.3.4 与其他数据集的对比
Bespoke-Stratos-17k 是开源社区中较早专注于推理轨迹的数据集之一。与后续发布的 OpenR1-Math-220k(包含 22 万条数学推理数据)相比,它的优势在于 跨领域多样性(数学、编程、谜题)和 轻量化生成流程,但规模较小。
2.3.5 获取与使用
数据集可通过 Hugging Face 平台访问(链接),格式为 Parquet 文件,包含问题、推理步骤和最终答案的标准化结构,适合直接用于模型微调和评估。
2.4 Base模型介绍
Qwen2.5-1.5B-Instruct 是阿里云开发的 Qwen2.5 系列语言模型中的一个版本,专为指令理解和执行进行了优化。以下是该模型的一些关键特性、架构细节以及其应用场景。
2.4.1 关键特性
-
参数规模: Qwen2.5-1.5B-Instruct 模型包含约 15亿(1.5B)个参数,这使得它在保持较高性能的同时,也能在资源受限的环境中高效运行。
-
支持的语言: 支持超过 29 种语言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文等,这使得它非常适合多语言任务的应用场景。
-
上下文长度: 能够处理高达 32,768 tokens 的上下文长度,并能生成最多 8,192 tokens 的内容,这对于长文档的理解和生成任务非常有用。
-
增强的功能:
- 指令执行能力: 在理解并执行复杂指令方面有了显著提升,能够更好地处理长文本生成任务。
- 结构化数据处理: 提升了对结构化数据(如表格、JSON)的理解和生成能力。
- 角色扮演和聊天机器人条件设置: 对各种系统提示具有更高的适应性,增强了角色扮演实现和聊天机器人的条件设置功能。
2.4.2 架构与技术细节
- 类型: 因果语言模型(Causal Language Model),这意味着它根据前面的词元预测下一个词元。
- 架构: 基于 Transformer 结构,采用了 RoPE(旋转位置嵌入)、SwiGLU(门控线性单元)、RMSNorm(均方根归一化)、注意力机制中的 QKV 偏置以及共享词嵌入等技术。
- 层数与头数: 包含 28 层,每个查询使用 12 个注意力头,而键值对则使用 2 个注意力头(GQA)。
2.4.3 应用场景
- 对话系统: 由于其强大的指令理解和执行能力,Qwen2.5-1.5B-Instruct 非常适合用于构建智能对话系统或聊天机器人。
- 文本生成: 可以用于创意写作、自动摘要、翻译等多种文本生成任务。
- 编程辅助: 它还可以帮助开发者进行代码编写、调试和问题解答,特别是在 CodeQwen1.5 发布后,吸引了大量依赖该模型完成编程任务的用户。
- 教育和技术支持: 在教育领域,它可以作为辅导工具,帮助学生解决数学、科学等问题;在技术支持方面,可以提供自动化的问题解决方案。
2.5 LoRA
LoRA(Low-Rank Adaptation) 是一种用于微调大规模预训练模型的高效方法,特别适用于资源受限的环境。LoRA 的核心思想是通过低秩矩阵分解来减少需要调整的参数数量,从而在保持模型性能的同时显著降低计算和存储成本。以下是对 LoRA 的详细介绍:
2.5.1 核心概念
-
低秩矩阵分解
LoRA 基于一个假设:预训练模型中的权重更新通常是低秩的。这意味着,与全量微调相比,只需要少量的低秩矩阵就能有效地捕捉到微调所需的参数变化。 -
增量更新
LoRA 不直接修改预训练模型的权重,而是为每个需要微调的层引入一对可训练的低秩矩阵 ( A ) 和 ( B ),并通过它们的乘积 ( AB ) 来生成权重更新。具体来说,原始权重 ( W_0 ) 被更新为 ( W = W_0 + BA ),其中 ( A ) 和 ( B ) 是低秩矩阵。
2.5.2 主要优势
-
节省内存和计算资源:
- 由于只需要存储和更新低秩矩阵,而不是整个模型的权重,因此显著减少了内存占用。
- 计算复杂度也大大降低,使得在资源有限的设备上运行大型模型成为可能。
-
高效的微调过程:
- LoRA 可以快速适应新任务或领域,而不需要从头开始重新训练整个模型。
- 由于只需要训练少量参数,收敛速度通常更快。
-
保留预训练知识:
- 通过仅添加增量更新而不改变原始权重,LoRA 有助于保留模型的预训练知识,避免过度拟合。
2.5.3 使用场景
LoRA 特别适用于以下几种情况:
- 多任务学习:当需要在多个相关任务之间共享一个基础模型时,LoRA 可以帮助快速适应每个任务的具体需求。
- 领域适应:在特定领域内微调通用模型时,LoRA 提供了一种轻量级的方法来实现高效适应。
- 资源受限的环境:在边缘设备、移动设备或其他计算资源有限的环境中,LoRA 可以显著降低模型的运行成本。
2.5.4 实现细节
在实际应用中,使用 LoRA 通常涉及以下几个步骤:
-
定义目标模块:
- 指定哪些层或模块需要进行 LoRA 微调。例如,在 Transformer 模型中,通常会针对注意力机制的权重进行微调。
-
初始化低秩矩阵:
- 为每个目标模块初始化一对低秩矩阵 ( A ) 和 ( B )。这些矩阵的大小由秩 ( r ) 决定,通常是一个较小的值(如 8 或 16)。
-
训练过程:
- 在训练过程中,只更新 ( A ) 和 ( B ),而保持原始模型权重不变。
- 使用适当的优化器(如 Adam)和学习率调度策略来优化这些矩阵。
-
推理阶段:
- 在推理阶段,将 ( BA ) 加到原始权重上,形成新的权重矩阵,并使用这个更新后的模型进行预测。
2.5.5 示例代码片段
以下是使用 Hugging Face 的 transformers
库和 peft
(Parameter-Efficient Fine-Tuning)库进行 LoRA 微调的一个简化示例:
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
from peft import LoraConfig, get_peft_model# 定义LoRA配置
lora_config = LoraConfig(r=16, # 秩lora_alpha=32, # 缩放因子target_modules=["query", "value"], # 目标模块lora_dropout=0.05 # dropout率
)# 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained('bert-base-uncased')# 应用LoRA
model = get_peft_model(model, lora_config)# 设置训练参数
training_args = TrainingArguments(output_dir="./results",num_train_epochs=3,per_device_train_batch_size=8,per_device_eval_batch_size=8,warmup_steps=500,weight_decay=0.01,logging_dir='./logs',
)# 创建Trainer并开始训练
trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset,eval_dataset=eval_dataset,
)
trainer.train()
3 源码分析
篇幅有限,源码分析更新到下一篇博文中。