从零构建大语言模型全栈开发指南：第一部分：数学与理论基础-1.1.2核心数学基础：线性代数、概率论与梯度优化

👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路

1.1.2 核心数学基础：线性代数、概率论与梯度优化

线性代数是描述高维数据与模型结构的核心工具，其核心概念包括：

向量与矩阵：表示词嵌入、注意力权重等。例如，一个包含1000个词的词表，每个词嵌入为768维向量，则词表矩阵为1000×768。
张量：多维数组的泛化形式，如Transformer中多头注意力层的权重张量（形状为[batch_size, num_heads, seq_len, seq_len]）。
矩阵乘法：用于计算注意力分数（ $QK^T$ ）和隐层变换（ $W X + b$ ）。
特征值与奇异值分解：分析模型参数稳定性与降维（如SVD用于低秩近似）。

在这里插入图片描述

关键作用：
- 参数效率：通过矩阵分解（如LoRA）减少参数量，例如将10000×10000矩阵分解为两个10000×100的低秩矩阵，参数量从1亿降至200万。
- 并行加速：张量并行与流水线并行技术可将训练速度提升3-5倍。

概率分布：
- 高斯分布：用于初始化神经网络权重（如He初始化）。
- Softmax分布：将logits转换为概率（ $\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_j e^{z_j}}$ ）。
- 伯努利分布：二分类任务输出层设计。
贝叶斯定理：
在文本生成中，后验概率 $\propto P(x|y)P(y)$ 用于解码策略（如束搜索），平衡生成多样性与相关性。
信息论：
- 交叉熵损失： $-\sum p_i \log q_i$ ，衡量预测分布 $q$ 与真实分布 $p$ 的差异。
- KL散度：评估生成文本与训练数据的分布差异，用于RLHF优化。
  - RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种结合强化学习与人类偏好数据的模型优化方法，广泛应用于语言模型（如 GPT 系列）的训练，旨在使模型输出更符合人类价值观、逻辑和伦理规范。
  - RLHF 的核心步骤
    - 监督微调（Supervised Fine-tuning, SFT）
      - 目标：让模型初步学会模仿人类的语言模式和任务逻辑。
    - 奖励模型训练（Reward Model Training）
      - 目标：训练一个奖励模型，预测人类对输出的评分（高分为优，低分为劣）。
    - 强化学习优化（Reinforcement Learning Optimization）
      - 目标：最大化奖励分数，使模型生成更符合人类偏好的输出，同时避免有害或无意义的内容。

在这里插入图片描述

反向传播通过计算图自动微分实现梯度计算，其核心步骤为：

在这里插入图片描述

分类任务：交叉熵损失（标准选择）。
生成任务：Perplexity（ $e^{H(p,q)}$ ）或BLEU分数（需结合强化学习）。
对齐任务：RLHF中的人类偏好损失，如Bradley-Terry模型 $-\log \frac{e^{r(x,y)}}{e^{r(x,y)} + e^{r(x,y')}}$ 。