从零构建大语言模型全栈开发指南:第三部分:训练与优化技术-3.2.3预训练任务设计:掩码语言建模(MLM)与下一句预测(NSP)

👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路


文章大纲

  • 3.2.3 预训练任务设计:`掩码语言建模(MLM)`与下一句预测(NSP)
    • 1. 掩码语言建模(`Masked Language Modeling, MLM`)
      • 1.1 MLM的核心原理与数学形式
      • 1.2 高级掩码优化技术
        • 1.2.1 `Span Masking(SpanBERT)`
        • 1.2.2 自适应掩码(`AMLM`)
    • 2. 下一句预测(`Next Sentence Prediction, NSP`)
      • 2.1 NSP任务设计
    • 3. MLM与NSP的联合训练
      • 3.1 联合目标函数
      • 3.2 动态课程学习
    • 4. 工程实现与优化
      • 4.1 数据预处理流水线
      • 4.2 显存优化策略
    • 5. 实验分析与效果验证
      • 5.1 消融实验(`Wikipedia数据集`)
      • 5.2 跨语言泛化能力
    • 6. 总结与最佳实践
      • 6.1 预训练任务设计准则
      • 6.2 领域适配方案

3.2.3 预训练任务设计:掩码语言建模(MLM)与下一句预测(NSP)

在这里插入图片描述

  • 掩码语言建模(MLM)与下一句预测(NSP)典型架构演进流程图
    在这里插入图片描述

1. 掩码语言建模(Masked Language Modeling, MLM

1.1 MLM的核心原理与数学形式

  • MLM(Masked Language Model,掩码语言模型)是预训练语言模型(如 BERT&

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41795.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例6,TableView16_06 分页表格拖拽排序

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

大模型训练步骤:预训练;增量预训练;微调;RLHF或者DPO

参考:https://blog.csdn.net/chengxuyuanyy/article/details/140949825 开发阶段分类 模型分成3个阶段: (1)、第一阶段:(Continue PreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识。 (2)、第二阶段: SFT(Sup…

多网络选择路由(windows环境)

问题 情况是这样的,公司环境需要连接网线才能连接内网,也能上网,但是网速贼慢,我就连接了自己的热点,但是还是很慢,但是一拔掉网线就快了,但是连不上内网环境了。 解决思路 我猜我访问外网时…

idea解决properties中文乱码

问题: 我的IDEA已经将文件的字符集设置成了UTF-8,但是中文在*.properties文件中还是会出现乱码,后来经同事指点修改了一项配置就ok了!话不多说,看下面的对比就清楚了。 设置方法: Settings -> Editor…

BKA-CNN-GRU、CNN-GRU、GRU、CNN四模型多变量时序预测(Matlab)

BKA-CNN-GRU、CNN-GRU、GRU、CNN四模型多变量时序预测(Matlab) 目录 BKA-CNN-GRU、CNN-GRU、GRU、CNN四模型多变量时序预测(Matlab)预测效果基本介绍程序设计参考资料 预测效果 基本介绍 BKA-CNN-GRU、CNN-GRU、GRU、CNN四模型多…

V8内存的限制

如大家所熟悉的,在一般的后端开发语言中,在基本的内存使用上没有什么限制,然而在 Node 中通过JavaScript 使用内存时就会发现只能使用部分内存(64 位系统写约 1.4GB,32 位系统下约为 0.7GB)。 在这样的限制…

【RabbitMQ】

课程背景 一.初始MQ 1.同步调用 2.异步调用 1.解耦合:如果需要扩展业务,那就扩呗,让扩展的服务去监听消息队列就可以了 2.无需等待:只管发消息,发完就不管了,干别的事去了 3.故障隔离:接收消息…

emWin图片旋转

图片取模: 源码: /* ********************************************************************************************************* * 声明图片 *********************************************************…

ElasticSearch在Windows单节点部署及使用

文章目录 初始化ES服务下载启动验证 Kibana可视化使用ES下载启动验证使用创建第一个索引添加文档查询文档 ES优点 初始化ES服务 下载启动 访问官网https://www.elastic.co/downloads/elasticsearch 点击Windows,开始下载elasticsearch-8.17.4-windows-x86_64.zip…

Qt弹出新窗口并关闭(两个按钮)

参考:Qt基础 练习:弹出新窗口并关闭的两种实现方式(两个按钮、一个按钮)_qt打开一个窗口另一个关闭-CSDN博客 实现:两个按钮,点击第一个按钮open window打开一个新窗口,点击第二个窗口close wi…

今日 GitHub 热门项目大赏,你 pick 谁?

GitHub 作为全球最大的开源代码托管平台,每天都有无数新奇且强大的项目涌现。今天就为大家精选几个不容错过的热门项目。 微软开源 Hyperlight Wasm:WebAssembly 的新力量 项目地址:hyperlight-wasm 微软开源的 Hyperlight Wasm&#xff0c…

【区块链安全 | 第七篇】EVM概念详解

文章目录 1. EVM 概述以太坊虚拟机(Ethereum Virtual Machine,EVM)的作用EVM 如何执行智能合约账户类型 2. EVM 体系结构栈(Stack)内存(Memory)存储(Storage)Gas 机制 3.…

【C++】AVL树

目录 前言平衡二叉树的定义AVL树的插入AVL树插入的大致过程更新平衡因子调整最小不平衡因子左单旋右单旋左右双旋右左双旋 AVL树的删除AVL树的查找 前言 前面我们在数据结构中学习了树,以及二叉树,还有二叉排序树,这节来学习平衡二叉树。 数…

【洛谷题单】暴力枚举(上)

【前情提要】 此文章包含洛谷题单的枚举题单,共14题,本篇7道题,主要分析思路,并通过这几道题目,进行总结有关枚举的内容。所以内容比较多,可以先收藏起来,慢慢看。 题单链接:暴力枚…

JVM类加载过程详解

文章目录 前言1.加载2.链接验证文件格式验证元数据验证字节码验证符号引用验证 准备解析 3.初始化4.类卸载 前言 类从被加载到虚拟机内存中开始到卸载出内存为止,它的整个生命周期可以简单概括为 7 个阶段:加载(Loading)、验证&a…

python之并发编程

并发编程介绍 串行、并行与并发的区别 进程、线程、协程的区别 1. 进程 (Process) 定义:进程是操作系统为运行中的程序分配的基本单位。每个进程都有独立的地址空间和资源(如内存、文件句柄等)。特点: 进程是资源分配的基本单位…

批量优化与压缩 PPT,减少 PPT 文件的大小

我们经常能够看到有些 PPT 文档明明没有多少内容,但是却占用了很大的空间,存储和传输非常的不方便,这时候通常是因为我们插入了一些图片/字体等资源文件,这些都可能会导致我们的 PPT 文档变得非常的庞大,今天就给大家介…

centos 7 LVM管理命令

物理卷(PV)管理命令 pvcreate:用于将物理磁盘分区或整个磁盘创建为物理卷。 示例:sudo pvcreate /dev/sdb1 解释:将 /dev/sdb1 分区创建为物理卷。 pvdisplay:显示物理卷的详细信息,如大小、所属…

b站视频提取mp4方案

引言 对于b站视频,有些视频是不能提取字幕的,所以我们想把对应的视频下载下来,然后进行对应的本地处理,获得所需的自由处理,吞食视频。 整体思路 下载b站客户端 ----> 把缓存路径修改------> 下载所需视频---…

springboot在feign和线程池中使用TraceId日志链路追踪(最终版)-2

文章目录 简述问题feign调用时给head加入traceIdFeignConfig配置FeignConfig 局部生效feign拦截器和配置合并为一个文件(最终版)feign异步调用拦截器配置[不常用] 使用TTL自定义线程池为什么需要TransmittableThreadLocal? 总结参考和拓展阅读…