大模型训练步骤：预训练；增量预训练；微调；RLHF或者DPO

参考：https://blog.csdn.net/chengxuyuanyy/article/details/140949825
开发阶段分类
模型分成3个阶段:

(1)、第一阶段:(Continue PreTraining)增量预训练，在海量领域文档数据上二次预训练GPT模型，以注入领域知识。

(2)、第二阶段: SFT(Supervised Fine-tuning)有监督微调，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图。

(3)、第三阶段 : RLHF和DPO二选一。

各个阶段功能介绍
(Continue PreTraining)增量预训练

在大模型整个流程中，增量预训练是属于后期预训练（Post-pretraining）的范畴。Post-pretraining（后期预训练）是一种在模型的初始预训练和最终微调之间进行的训练方法。这种方法通常用于进一步适应模型以处理特定类型的数据或任务。以下是详细介绍，参考了之前对SFT和RLHF的描述方式：

1、后期预训练（Post-pretraining）

Post-pretraining是在通用预训练模型的基础上，对模型进行额外训练的过程，通常是为了使模型更好地适应特定的领域或任务。
这个过程使用的数据集通常比预训练阶段的数据集更专注于某个领域或任务，但比微调阶段使用的数据集更大、更广泛。
训练方法可以是监督学习，也可以是自监督学习，具体取决于可用数据的类型和训练目标。
Post-pretraining的目标是在不过度专化到某个特定任务的同时，提高模型对特定领域的理解和表现。
2、训练过程
在Post-pretraining阶段，模型通常会在一个包含大量领域特定数据的数据集上进行训练。
这个阶段的训练可以包括多种任务，如语言建模、文本分类、实体识别等，这些任务都是为了提升模型在特定领域的表现。
训练过程中，模型的参数会根据领域特定数据集进行调整，以便更好地捕捉和理解领域内的语言模式和知识。
3、优势与目标

Post-pretraining允许模型在保持通用性的同时，增强对特定领域的理解，这有助于模型在后续的微调阶段更快速地适应特定任务。
与 SFT 相比，Post-pretraining在微调之前提供了一个中间步骤，有助于模型更平滑地过渡到特定任务上。
与 RLHF 相比，Post-pretraining不依赖于复杂的奖励机制或人类反馈，而是通过大量的领域特定数据来提升模型性能。
总结来说，Post-pretraining是一个介于预训练和微调之间的训练阶段，它使用大量的领域特定数据来进一步调整模型，使其更好地理解特定领域的语言和任务。这个阶段不需要复杂的奖励机制，而是通过传统的监督或自监督学习方法来实现模型性能的提升。
微调 (Fine-tuning)

在这个阶段，预训练模型（可能经过了Post-pretraining）被进一步训练，以优化它在一个特定任务上的表现。

微调通常在一个相对较小的、特定任务的数据集上进行，这个数据集包含了明确的标签，模型通过监督学习来进行优化。

微调的目的是调整模型的参数，使其能够在特定任务上做出准确的预测。

SFT 监督微调
SFT (Supervised Fine-Tuning) 是微调的一种形式，强调在有监督的环境下进行。

在SFT阶段，我们使用特定领域的数据或私有化数据对预训练模型进行改良。这一阶段需要指令微调数据，数据集通常由输入（用户问题）和输出（标准答案）两个字段构成。标准答案通常由专家标注获得。

1、SFT是一种简单的微调方法，它使用带有正确答案的数据集来继续训练一个预训练的模型。

2、这种方法依赖于大量的标注数据，即每个输入都有一个预先定义的正确输出。

3、微调的目的是使模型更好地适应特定的任务或领域【垂直领域】，比如特定类型的语言理解或生成任务。

4、SFT通常不涉及复杂的策略或奖励函数，只是简单地最小化预测输出和真实输出之间的差异。

RLHF 人类反馈强化学习

RLHF是一种利用人类反馈来训练强化学习模型的方法。在RLHF中，模型通过与人类交互获得反馈，这些反馈作为奖励信号来指导模型的行为。RLHF通常用于训练能够生成更自然、更符合人类偏好的文本或其他输出的模型。这种方法特别适用于需要模型理解和适应人类偏好的场景。

1、RLHF (Reinforcement Learning from Human Feedback) 是一种更复杂的训练方法，它结合了监督学习和强化学习。

2、在RLHF中，模型首先通过监督学习进行预训练，然后通过人类提供的反馈来进行强化学习。

3、人类反馈可以是对模型输出的评分，或者是在模型输出之间做出选择的偏好。

4、强化学习部分涉及到定义一个奖励函数，该函数根据人类反馈来调整模型的行为，以优化长期的奖励。

5、RLHF的目标是训练出一个在没有明确标签的复杂任务中表现良好的模型，这些任务可能需要更细致的判断和调整。
模型对齐

对齐阶段目的是进一步优化模型，使其更符合实际应用需求。在这个阶段，我们收集用户反馈数据（如点赞或点踩），并基于这些数据进行模型的进一步训练。
对齐阶段的数据格式与SFT阶段不同：
通常包含对同一问题的接受（accept）和拒绝（reject）两种答案。
问题解决策略及部署

在SFT阶段，模型被训练以识别“想要的答案”，但未明确告知“不想要的答案”。为解决这一问题，我们通过收集用户反馈和日志数据，在对齐阶段告诉模型哪些答案是不可接受的。
经过SFT和对齐阶段的训练，我们可以得到一个优化后的模型，这个模型可以部署上线。在对齐过程中，我们可以使用一些常见的方法，如PPO（Proximal Policy Optimization）和DPO（Distributional Proximal Optimization）。DPO由于训练过程相对简单，已成为对齐阶段的主流算法。
总的来说，SFT更侧重于直接从标注数据中学习，而RLHF则试图通过人类的反馈来引导模型学习更复杂和更细粒度的行为。RLHF通常被认为是一种更接近人类学习方式的方法，因为它不仅仅依赖于标签数据，还依赖于人类对模型输出的评价和偏好。
RLHF与模型对齐区别

总的来说，模型对齐阶段可以视为一个更广泛的概念，而RLHF是一种特定的实现方式，特别是在强化学习领域。两者在实践中可能会有交集，但它们侧重点和应用方式有所不同。

1、联系：

两者都涉及到根据反馈来调整模型的行为，以提高模型的性能和适应性。

2、区别：

技术实现：对齐阶段可能不仅限于强化学习，还可以包括监督学习或其他类型的学习；而RLHF明确使用了强化学习框架。

反馈来源：对齐阶段的反馈可以来自用户的实际使用情况，而RLHF的反馈通常来自与模型交互的人类评估者。

目标：对齐阶段的目标是使模型的输出与用户期望对齐，而RLHF的目标是通过人类反馈来优化模型的决策过程。

技术创新与发展
RLHF：

基本精神是利用人类指导的力量有效地训练人工智能模型。传统的强化学习模型通过与环境交互产生的奖励来学习，而 RLHF 则不同，它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间，与人类价值观保持一致，并做出更明智和道德的选择。

DPO：

RLHF 是一个复杂且经常不稳定的过程，那我们是否可以通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好呢？

DPO就是通过利用奖励函数与最优策略之间的映射关系，证明这个受限的奖励最大化问题可以通过单阶段的策略训练来精确优化来达到这个目的的。
它通过直接优化模型以生成首选响应，将问题表述为使用人类偏好对数据集的分类任务，本质上是在人类偏好数据上解决一个分类问题。DPO是稳定的、性能和计算成本轻量级的，无需拟合奖励模型，在微调期间从 LM 中采样，或执行显着的超参数调整。
在这里插入图片描述
DPO是一种单阶段算法，可直接优化 LLM以生成首选响应。具体的实现手段是通过增加偏好样本的对数概率与减小非偏好样本响应的对数概率。DPO 最大化生成首选完成的概率并最小化生成非首选完成的概率。它不涉及多轮训练。