Transformers快速入门-学习笔记(二)

上篇:Transformers快速入门-学习笔记-CSDN博客

  • 七、微调预训练模型

    • 加载数据集
      • Dataset
        • IterableDataset
      • DataLoader
    • 训练模型
      • 构建模型
      • 优化模型参数
      • 保存和加载模型
  • 八、快速分词器

    • 快速分词器
      • 慢速分词器 Transformers、 快速分词器 Tokenizers ; AutoTokenizer
      • 再看分词结果
        • encoding.tokens
      • 追踪映射
        • word_ids
        • 词语/token -- 文本: 通过word_to_chars()、token_to_chars() 函数来实现
        • 词语 -- token:可以直接通过索引直接映射,分别通过 token_to_word() 和 word_to_tokens() 来实现
        • 文本 -- 词语/token:通过 char_to_word() 和 char_to_token() 方法来实现
    • 序列标注任务
      • pipeline 的输出
        • pipeline("token-classification")
      • 构造模型输出
      • 组合实体
    • 抽取式问答任务
      • pipeline的输出
      • 构造模型输出
      • 处理长文本
  • 九、序列标注任务

    • 准备数据
      • 构建数据集
      • 数据预处理
    • 训练模型
      • 构建模型
      • 优化模型参数
      • 保存模型
    • 测试模型
      • 处理模型输出
      • 保存预测结果
  • 十、翻译任务

    • 准备数据
      • 构建数据集
      • 数据预处理
    • 训练模型
      • 优化模型参数
      • 保存模型
    • 测试模型
    • 关于解码
      • 自回归语言生成
      • 贪心搜索
      • 柱搜索
      • 随机采样
      • Top-K 采样
      • Top-p nucleus 采样
  • 十一、文本摘要任务

  • 十二、抽取式问答

  • 十三、Prompting 情感分析

  • 十四、大语言模型技术简介

    • 大语言模型技术概览
      • 规模扩展
      • 数据工程
      • 高效预训练
      • 能力激发
      • 人类对齐
      • 工具使用
    • 大语言模型的构建过程
      • 大规模预训练
      • 指令微调与人类对齐
      • 常用的预训练数据集
        • 网页
        • 书籍
        • 维基百科
        • 代码
        • 混合型数据集
      • 常用微调数据集
        • 指令微调数据集
        • 人类对齐数据集
    • 开发大语言模型
      • DeepSpeed库
        • DeepSpeed-MII
        • DeepSpeed-Chat
      • Megatron-LM
  • 十五、预训练大语言模型

    • 数据准备
      • 专用文本数据
        • 多语文本
        • 科学文本
        • 代码
      • 数据预处理
        • 质量过滤
          • 基于启发式规则的方法
          • 基于分类器的方法
        • 敏感内容过滤
        • 数据去重
        • 词元化 分词
      • 数据调度
        • 数据混合
    • 模型架构
      • 主流架构
        • 因果解码器
        • 前缀解码器
        • 编码器-解码器
      • 长上下文模型
        • 扩展位置编码
        • 调整上下文窗口
    • 模型预训练
      • 预训练任务
        • 语言建模
        • 去噪自编码
        • 混合去噪声
      • 优化参数设置
        • 基于批次数据的训练
        • 学习率
        • 优化器
        • 稳定优化技术
      • 可扩展的训练技术
        • 3D 并行训练
          • 数据并行
          • 流水线并行
          • 张量并行
        • 零冗余优化器
        • 混合精度训练
  • 十六、使用大语言模型

    • 指令微调
      • 指令数据的构建
        • 基于现有的NLP任务数据集构建
        • 基于日常对话数据构建
        • 基于合成数据构建
      • 参数高效微调方法 LoRA
    • 人类对齐
      • 基于人类反馈的强化学习
        • 监督微调
        • 奖励模型训练
        • 强化学习微调
      • 非强化学习的对齐方法
        • 对齐数据的收集
        • 代表性监督对齐算法 DPO
      • SFT和RLHF的进一步讨论
    • 使用大语言模型
      • 解码加速算法
        • 系统级优化
        • 解码策略优化
      • 低资源部署策略
      • 模型蒸馏和模型剪枝
      • 提示学习
      • 大模型应用
        • 自然语言处理
        • 信息检索

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39785.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[数据结构]1.时间复杂度和空间复杂度

这里写目录标题 1. 算法复杂度2. 时间复杂度2.1 执行次数2.2 大O渐进表示法2.3 常见时间复杂度计算eg1eg2eg3eg4eg5eg6eg7eg8eg9 3. 空间复杂度eg1eg2eg3eg4 4. 常见复杂度对比5. 复杂度练习eg1 1. 算法复杂度 衡量一个算法的好坏,一般是从时间空间两个维度来衡量&…

高斯核函数

高斯核函数的名称比较多,以下名称指的都是高斯核函数: 高斯核函数。 RBF(Radial Basis Function Kernel)。 径向基函数。 高斯核函数的数学表达式为: 其中: xxx 和 yyy 是输入空间中的两个向量。∥x−y…

数据结构入门【算法复杂度】

算法复杂度 1.数据结构前言1.1 数据结构1.2算法1.3算法效率 2.时间复杂度3.大O渐进表示法3.1大O渐进表示法概念3.2时间复杂度示例 4.空间复杂度 1.数据结构前言 1.1 数据结构 数据结构是计算机存储,组织数据的方式,指相互之间存在的一种或者多种特定关…

others-rustdesk远程

title: others-rustdesk远程 categories: Others tags: [others, 远程] date: 2025-03-19 10:19:34 comments: false mathjax: true toc: true others-rustdesk远程, 替代 todesk 的解决方案 前篇 官方 服务器 - https://rustdesk.com/docs/zh-cn/self-host/rustdesk-server-o…

Android 静态壁纸设置实现方案

提示:Android 平台,静态壁纸实现方案 文章目录 需求:Android 实现壁纸 设置场景 参考资料实现方案直接调用系统 API,WallpaperManager 来实现 wallpaperManager.setResource系统源码分析系统app WallpaperPickerWallpaperPickerActivity ->…

余弦退火算法与学习率预热

余弦退火算法与学习率预热 总述: (1)标准余弦退火算法(Cosine Annealing)是通过单次的余弦曲线调整学习率,在一个周期内让学习率从一个最大值平滑下降η_max到最小值η_min,这种调整模式是非周…

数据结构之栈的2种实现方式(顺序栈+链栈,附带C语言完整实现源码)

对于逻辑关系为“一对一”的数据,除了用顺序表和链表存储外,还可以用栈结构存储。 栈是一种“特殊”的线性存储结构,它的特殊之处体现在以下两个地方: 1、元素进栈和出栈的操作只能从一端完成,另一端是封闭的&#xf…

MySQL 调优:查询慢除了索引还能因为什么?

文章目录 情况一:连接数过小情况二:Buffer Pool 太小 MySQL 查询慢除了索引还能因为什么?MySQL 查询慢,我们一般也会想到是因为索引,但除了索引还有哪些原因会导致数据库查询变慢呢? 以下以 MySQL 中一条 S…

gin学习

gin学习笔记,不仅包含了基本的增删查改外,还包括参数传递,上传下载,模版、session与中间件等,方便收藏自习可用 文章目录 获得个请求get打印字符串get请求xmlget请求跳转http方法路由可以通过Context的Param方法来获取…

[GHCTF 2025]ez_readfile

题目&#xff1a; <?phpshow_source(__FILE__);if (md5($_POST[a]) md5($_POST[b])) {if ($_POST[a] ! $_POST[b]) {if (is_string($_POST[a]) && is_string($_POST[b])) {echo file_get_contents($_GET[file]);}}} ?> Warning: md5() expects parameter 1 …

CentOS 7上配置虚拟用户的FTP服务

1. 使用yum安装vsftpd yum install -y vsftpd 2. 创建虚拟用户的存储文件 创建虚拟用户列表文件&#xff1a; vim /etc/vsftpd/virtual_users.txt chuang1123456zeng223456 按 “ i ”进行编辑&#xff0c;编辑完按 “ ESC ”&#xff0c;退出命令行&#xff…

试试智能体工作流,自动化搞定运维故障排查

APO 1.5.0版本全新推出的智能体工作流功能&#xff0c;让运维经验不再零散&#xff01;只需将日常的运维操作和故障排查经验转化为标准化流程&#xff0c;就能一键复用&#xff0c;效率翻倍&#xff0c;从此告别重复劳动&#xff0c;把时间留给更有价值的创新工作。更贴心的是&…

网络原理之传输层

前文我们了解 应用层 传输层 网络层 数据链路层 物理层 这五层结构,此文我先讨论传输层相关的知识 1. 传输层 负责数据能够从发送端传输到接收端. 1.1 端口号 端⼝号(Port)标识了⼀个主机上进行通信的不同的应用程序 端口号范围划分: 0-1023:知名端口号,HTTP,FTP,SSH等这些…

【XPipe】一款好用的SSH工具

XPipe XPipe是一种新型的shell连接中心和远程文件管理器&#xff0c;允许您从本地计算机访问整个服务器基础设施。它可以在您安装的命令行程序之上运行&#xff0c;不需要在远程系统上进行任何设置&#xff0c;目前在Github上已经有10kstar。 Github 项目地址&#xff1a;htt…

使用自定义指令实现css样式层叠

使用自定义指令实现css样式层叠 分析 有时候页面的头部可能会采用固定定位的方式&#xff0c;同时头部占用了较大空间&#xff0c;导致内容区的位置被压缩&#xff0c;如图1-1&#xff0c;这时能否在滚动的时候改变内容区div的css层级&#xff0c;让其覆盖在头部上面&#xf…

TypeScript可选属性(Optional Properties)终极指南:用?号解锁对象动态性!!!

&#x1f333; TypeScript可选属性&#xff08;Optional Properties&#xff09;终极指南&#xff1a;用?号解锁对象动态性 &#x1f680; 「小知识大力量」&#xff1a;在TypeScript中&#xff0c;一个?号就能让你的对象属性从「必须存在」变成「灵活可选」&#xff01;&…

React+Ant Design的Layout布局实现暗黑模式切换

目录 效果预览完整代码我遇到的BUG问题代码BUG1&#xff1a;暗黑模式下内容区不变成深色BUG2&#xff1a;光亮模式下的左右区域是深色 补充知识ConfigProvider是什么&#xff1f;Ant Design中的theme如何使用&#xff1f;theme 配置的常见字段主题算法通过 useToken 获取主题 效…

把生产队的大模型Grok 3 beta用来实现字帖打磨

第一个版本&#xff0c;就是简单的田字格&#xff0c;Grok 3 beta 思考了15s就得到了html前端代码&#xff0c;javascript; 然而还不完美&#xff1b; 第二个版本&#xff0c;进一步&#xff0c;通过pinyin项目给汉字加上注音&#xff0c;米字格和四线格&#xff1b;&#xff…

【操作系统安全】任务3:Linux 网络安全实战命令手册

目录 一、基础网络信息获取 1. 网络接口配置 2. 路由表管理 3. 服务端口监控 二、网络监控与分析 1. 实时流量监控 2. 数据包捕获 3. 网络协议分析 三、渗透测试工具集 1. 端口扫描 2. 漏洞利用 3. 密码破解 四、日志审计与分析 1. 系统日志处理 2. 入侵检测 3…

2024年MathorCup数学建模A题移动通信网络中PCI规划问题解题全过程文档加程序

2024年第十四届MathorCup高校数学建模挑战赛 A题 移动通信网络中PCI规划问题 原题再现&#xff1a; 物理小区识别码(PCI)规划是移动通信网络中下行链路层上&#xff0c;对各覆盖小区编号进行合理配置&#xff0c;以避免PCI冲突、PCI混淆以及PCI模3干扰等现象。PCI规划对于减少…