Transformers快速入门-学习笔记（二）

上篇：Transformers快速入门-学习笔记-CSDN博客

七、微调预训练模型
- 加载数据集
  - Dataset
    - IterableDataset
  - DataLoader
- 训练模型
  - 构建模型
  - 优化模型参数
  - 保存和加载模型
八、快速分词器
- 快速分词器
  - 慢速分词器 Transformers、快速分词器 Tokenizers ; AutoTokenizer
  - 再看分词结果
    - encoding.tokens
  - 追踪映射
    - word_ids
    - 词语/token -- 文本：通过word_to_chars()、token_to_chars() 函数来实现
    - 词语 -- token：可以直接通过索引直接映射，分别通过 token_to_word() 和 word_to_tokens() 来实现
    - 文本 -- 词语/token：通过 char_to_word() 和 char_to_token() 方法来实现
- 序列标注任务
  - pipeline 的输出
    - pipeline("token-classification")
  - 构造模型输出
  - 组合实体
- 抽取式问答任务
  - pipeline的输出
  - 构造模型输出
  - 处理长文本
九、序列标注任务
- 准备数据
  - 构建数据集
  - 数据预处理
- 训练模型
  - 构建模型
  - 优化模型参数
  - 保存模型
- 测试模型
  - 处理模型输出
  - 保存预测结果
十、翻译任务
- 准备数据
  - 构建数据集
  - 数据预处理
- 训练模型
  - 优化模型参数
  - 保存模型
- 测试模型
- 关于解码
  - 自回归语言生成
  - 贪心搜索
  - 柱搜索
  - 随机采样
  - Top-K 采样
  - Top-p nucleus 采样
十一、文本摘要任务
十二、抽取式问答
十三、Prompting 情感分析
十四、大语言模型技术简介
- 大语言模型技术概览
  - 规模扩展
  - 数据工程
  - 高效预训练
  - 能力激发
  - 人类对齐
  - 工具使用
- 大语言模型的构建过程
  - 大规模预训练
  - 指令微调与人类对齐
  - 常用的预训练数据集
    - 网页
    - 书籍
    - 维基百科
    - 代码
    - 混合型数据集
  - 常用微调数据集
    - 指令微调数据集
    - 人类对齐数据集
- 开发大语言模型
  - DeepSpeed库
    - DeepSpeed-MII
    - DeepSpeed-Chat
  - Megatron-LM
十五、预训练大语言模型
- 数据准备
  - 专用文本数据
    - 多语文本
    - 科学文本
    - 代码
  - 数据预处理
    - 质量过滤
      - 基于启发式规则的方法
      - 基于分类器的方法
    - 敏感内容过滤
    - 数据去重
    - 词元化分词
  - 数据调度
    - 数据混合
- 模型架构
  - 主流架构
    - 因果解码器
    - 前缀解码器
    - 编码器-解码器
  - 长上下文模型
    - 扩展位置编码
    - 调整上下文窗口
- 模型预训练
  - 预训练任务
    - 语言建模
    - 去噪自编码
    - 混合去噪声
  - 优化参数设置
    - 基于批次数据的训练
    - 学习率
    - 优化器
    - 稳定优化技术
  - 可扩展的训练技术
    - 3D 并行训练
      - 数据并行
      - 流水线并行
      - 张量并行
    - 零冗余优化器
    - 混合精度训练
十六、使用大语言模型
- 指令微调
  - 指令数据的构建
    - 基于现有的NLP任务数据集构建
    - 基于日常对话数据构建
    - 基于合成数据构建
  - 参数高效微调方法 LoRA
- 人类对齐
  - 基于人类反馈的强化学习
    - 监督微调
    - 奖励模型训练
    - 强化学习微调
  - 非强化学习的对齐方法
    - 对齐数据的收集
    - 代表性监督对齐算法 DPO
  - SFT和RLHF的进一步讨论
- 使用大语言模型
  - 解码加速算法
    - 系统级优化
    - 解码策略优化
  - 低资源部署策略
  - 模型蒸馏和模型剪枝
  - 提示学习
  - 大模型应用
    - 自然语言处理
    - 信息检索