GPT 和 BERT 系列论文阅读总结

文章目录

  • 1. GPT
    • 1.1 GPT的目的和任务
    • 1.2 GPT的实现
      • 1.2.1 Unsupervised pre-training
      • 1.2.2 Supervised fine-tuning
      • 1.2.3 特定任务的输入格式
  • 2. BERT
    • 2.1 BERT的目的和任务
    • 2.2 BERT的实现
      • 2.2.1 Masked Language Model
      • 2.2.2 Next Sentence Prediction (NSP)
  • 3. GPT-2
    • 3.1 初见 prompt
    • 3.2 模型结构
  • 4. GPT-3
  • 5. GPT-4

NLP领域中著名论文的时间关系:

  • 2017.06,Transformer,Google
  • 2018.06,GPT,OpenAI
  • 2018.10,BERT,Google
  • 2019.02,GPT-2,OpenAI
  • 2020.05,GPT-3,OpenAI
  • 2024.03,GPT-4,OpenAI

1. GPT

paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》

1.1 GPT的目的和任务

NLP中有很多任务,例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库(unlabeled text),但用于训练上述特定任务的标记数据很少,这使得训练这些模型非常困难。(很好理解,没有高质量的标注数据当然不可能训练出好的模型,那有没有可能利用unlabeled text解决这个问题呢?)

如何解决这个NLP领域的大问题呢?GPT的思路是:

先在大量丰富的 unlabeled text 语料库上预训练(Pre-Training)一个语言模型,然后被其他特定的NLP任务进行针对性的微调(fine-tuning)

其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了,因为有 ImageNet 这样的大规模数据集,但是NLP的文本标注更困难,且文本包含的信息比图像少,可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练,所以用标记数据 Pre-Training 语言模型是非常困难的。

1.2 GPT的实现

使用 unlabeled text 进行预训练的困难:

  • 不能确定哪个优化目标函数能够适用于所有的下游子任务,毕竟NLP诸多任务的目标函数都是不同的。
  • 如何有效地将预训练模型学到的文本表示传递到下游子任务中,因为NLP诸多任务差别比较大,没有统一的有效的文本表示。

GPT使用 Transformer 模型,其实现流程是 two-stage 的:

  • 第一步:在无标注数据上训练语言模型的初始参数。
  • 第二部:使用相应的有标注数据微调这些参数以适应目标任务。

1.2.1 Unsupervised pre-training

首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别:

  • Encoder 的 Attention 计算第 i 个元素的特征编码时,可以看到整个序列中的所有元素。
  • Decoder 使用的是 Mask Attention,计算第 i 个元素的特征编码时,只能看到第 i 个元素之前的序列中的 i-1 个元素。

GPT 的预训练使用的是 Transformer 的 Decoder 模型,包括 12 个 blocks,每层维度为 768,训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型,其预测第 i 个单词时只知道前面 i-1 个单词,不知道后面的单词,所以必须使用 Decoder-only 模型。其目标函数为:

在这里插入图片描述
其中 U= { U 1 , . . . U n } \{U_1,...U_n\} {U1,...Un} 为单词的 token 序列,k 为上下文长度(context window)

这里补充一下语言建模的两种方法:

  • 自回归语言建模(auto regressive):Transformer Decoder-only 模型,前向(左到右)预测 或者 反向(右到左)预测,在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
  • 自编码语言建模(auto encoder):Transformer Encoder-only 模型,同时利用了前向和反向预测的优势,在预测时同时读入两个方向的序列,预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的,能获得更好的结果。BERT 就是一种自编码语言建模,是一种完形填空的形式(cloze)。

关于 BERT 和 两种语言建模方法可以参考博客 【理论篇】是时候彻底弄懂BERT模型了 自编码语言建模的优势(知道过去和未来预测现在显然是一个比较简单的任务)决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高,因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型,最终做出了 GPT3 这样影响全球的模型。

1.2.2 Supervised fine-tuning

使用 L 1 ( U ) L_1(U) L1(U) 作为损失函数训练 GPT 模型后,使用有监督的数据集 C C C 进行 fine-tuning, C C C 数据集包含一个 input tokens 序列 { x 1 , . . . x m } \{x^1,...x^m\} {x1,...xm} 和该训练的 label( y y y)。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 h l m h_l^m hlm,然后将 h l m h_l^m hlm 送到一个额外的参数为 W y W_y Wy 的全连接层中预测 y y y

在这里插入图片描述
全连接层的目的是将 h l m h_l^m hlm 的维度映射到 y y y 的维度(比如十分类任务全连接层的输出维度是10),其参数 W y W_y Wy 是随机初始化的。

Supervised fine-tuning 目标函数为:

在这里插入图片描述
此外作者发现如果将语言模型的目标函数 L 1 ( U ) L_1(U) L1(U) 也作为 fine-tuning 的目标函数会带来两个好处:

  • 提高有监督模型的泛化能力
  • 加速收敛

所以作者将 fine-tuning 的目标函数改为了 L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C)=L_2(C)+\lambda L_1(C) L3(C)=L2(C)+λL1(C)

在 fine-tuning 过程中需要引入的额外参数是 W y W_y Wy 和分隔符(delimiter)的 token embedding

1.2.3 特定任务的输入格式

以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构,GPT 为了规避这种弊端,将多种文本连接成一个长序列输入到 Transformer Decoder 中,这种模式化的方法避免了在 fine-tuning 时修改网络结构,这是 GPT 论文的核心创新点之一。

GPT论文中列举了四种下游任务,包括文本分类(N分类)、文本蕴含关系判断(三分类)、文本相似性判断(二分类)、多选题(输入N个答案的置信度)。

在这里插入图片描述

2. BERT

paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》

2.1 BERT的目的和任务

BERT 是一个双向 Transformer 的预训练模型,其主要灵感来源于两个工作的结合:

  • ELMo:双向 LSTM,用于下游任务时需要对模型架构进行调整,但是 BERT 只需要修改输出层即可。
  • GPT:单向 Transformer,用于下游任务时也只需要修改输出层即可。

BERT 使用 masked language model(MLM)实现了类似于 cloze task(完形填空)的任务。

2.2 BERT的实现

BERT 的模型是 Transformer Encoder-only 结构,包括两种规模:

  • BERT base:12 个 blocks,特征维度为 768,head 数为 12,参数量 110M(为了对标GPT)
  • BERT large:24 个 blocks,特征维度为 1024,head 数为 16,参数量 340M(为了刷榜)

BERT 实验初步证明了在 NLP 中,模型和数据量越来越大的时候,效果会更好。

关于 BERT 的细节部分可以参考博客 【理论篇】是时候彻底弄懂BERT模型了

2.2.1 Masked Language Model

为了训练深度双向表示,只需随机屏蔽一定比例的输入 token,然后预测这些被屏蔽的 token;这就是 Masked Language Model,其实就是一种 cloze task(完形填空)。实验中,论文将 WordPiece分词器 生成的词元的 15% 随机 mask,具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000,则需要随机预测 150 个词。

上述方法是有一些问题的,在训练 BERT 的时候有 15% 的 [MASK] 标记,但在 fine-tuning 时是没有 [MASK] 标记的,二者的数据不对齐。为了将数据对齐,在训练时需要 mask 的 15% 的词元中,将 80% 的词元替换为 [MASK],10%的词元替换为其他随机单词,10%的词元不做改变。

通过这个实验能看出来,BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力,并不是 BERT 做了什么结构上的改进,其“双向”能力是通过 cloze task 训练出来的。

2.2.2 Next Sentence Prediction (NSP)

下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务,在此任务中,我们输入两个句子两个BERT,然后BERT需要判断第二个句子是否为第一个句子的下一句。

3. GPT-2

paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》

先看一下故事背景:在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务,并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练,所以其实也没有那么方便,这个根本原因是 GPT和BERT模型的泛化能力一般。

GPT-2 主打的是 zero-shot,做下游任务时候不需要使用数据集训练模型,以达到训练一个模型在任何任务中都能用的目的。

注:多任务学习是指使用多种数据集训练模型(可能需要修改或增加损失函数),使得一个模型适用于多种任务。

3.1 初见 prompt

没错,就是那个 prompt,大模型提示词,在这里第一次出现了!

GPT 和 BERT 微调的时候,输入的文本是需要加各种分隔符的,这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ,肯定要保证预训练的数据和微调的数据格式是相同的。

以往微调单个任务的目标是学习条件分布 p ( o u t p u t ∣ i n p u t ) p(output|input) p(outputinput),但一个通用模型应该能够执行许多不同的任务,甚至对于相同的输入,它应该不仅以输入为条件,而且以要执行的任务为条件;因此通用模型的目标是学习 p ( o u t p u t ∣ i n p u t , t a s k ) p(output|input,task) p(outputinput,task)。因此 GPT-2 采用了一种灵活的方式,可以将 task、input 和 output 都写完自然语言的形式。比两个例子:

  • 机器翻译训练任务可以写出序列(translate to french, english text, french text)
  • 阅读理解训练任务可以写成序列(answer the question, document, question, answer)

在此后的论文中,“translate to french” 和 “answer the question” 称为 prompt

3.2 模型结构

GPT-2使用了 800 万个文档(共 40GB)进行训练,模型结构依然是 Transformer 的 Decoder 结构,自回归建模方式。GPT-2不同的模型规格如下,最大 1.5B(15亿)参数:

在这里插入图片描述

GPT-2只是对模型做了几个地方的调整,这些调整更多的是被当作训练时的trick(比如防止多层 block 导致的梯度问题),并不是创新点。

4. GPT-3

paper: Language Models are Few-Shot Learners

GPT-3 包含 175B(1750亿)参数,对于所有的任务,GPT-3都是在没有任何梯度更新或微调的情况下执行的,因为微调需要计算梯度,如此大的模型计算梯度是非常困难的。

那么 GPT-3 如何实现 Few-Shot 且不更新梯度呢?可以分成三步进行理解(以英语翻译法语为例):

  1. Zero-shot:GPT-2的模式,只输入 (task, input),输出法语 output
    在这里插入图片描述
  2. One-shot:除了输入 (task, input),还在给模型提供 input 之前告诉模型一个 英语翻译为法语的示例,即输入 (task, example, input),输出法语 output

在这里插入图片描述
那么为何可以在只提供一个 example 且不更新模型梯度的情况下使模式输出正确的法语翻译呢?

答曰:增加 example 的目的是增加输入的序列长度,使模型在前向推理过程中,通过 Attention 机制处理比较长的序列信息,并从中抽取有用信息, 这就是上下文学习。

  1. Few-shot:对 One-shot 的拓展,使输入序列更长,有用信息更多。但更长的序列不一定有用,因为模型不一定能处理特别长的序列,这就是上下文长度限制。
    在这里插入图片描述

5. GPT-4

GPT-4 技术报告:GPT-4 Technical Report

GPT-4 是一个多模态大模型,可以接受图像和文本的输入,输出为文本形式。

GPT-4 的技术报告几乎没有提及任何技术细节,全文在展示结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/388160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2-51 基于matlab的IFP_FCM(Improved fuzzy partitions-FCM)

基于matlab的IFP_FCM(Improved fuzzy partitions-FCM),改进型FCM(模糊C均值)聚类算法,解决了FCM算法对初始值设定较为敏感、训练速度慢、在迭代时容易陷入局部极小的问题。并附带了Box和Jenkins煤气炉数据模型辨识实例。程序已调通&#xff0…

基于单片机的电梯控制系统的设计

摘 要: 本文提出了一种基于单片机的电梯控制系统设计 。 设计以单片机为核心,通过使用和设计新型先进的硬件和控制程序来模拟和控制整个电梯的运行,在使用过程中具有成本低廉、 维护方便、 运行稳定 、 易于操作 、 安全系数高等优点 。 主要设计思路是…

RocketMQ消息发送基本示例(推送消费者)

消息生产者通过三种方式发送消息 1.同步发送:等待消息返回后再继续进行下面的操作 同步发送保证了消息的可靠性,适用于关键业务场景。 2.异步发送:不等待消息返回直接进入后续流程.broker将结果返回后调用callback函数,并使用 CountDownLatch计数 3.单向发送:只…

MySQL---JDBC

一、JDBC是什么? JDBC(Java Database Connectivity):是Java访问数据库的解决方案。 JDBC定义了一套标准的接口,即访问数据库的通用API,不同数据库的厂商根据各自数据库的特点实现这些接口。 JDBC希望用相同的方式访问不同的数据库&#xff0c…

cocos creator绘制网格背景(基于矢量绘图)

在2D游戏开发中,设计2D地图的背景实现通常有以下几种方式: 静态背景图: 最简单的方式是使用静态背景图,即将整个背景作为一个静态图像加载到游戏中。这种方式适用于简单的游戏或者背景不需要变化的场景。 平铺背景图:…

java~反射

反射 使用的前提条件:必须先得到代表的字节码的Class,Class类用于表示.class文件(字节码) 原理图 加载完类后,在堆中就产生了一个Class类型的对象(一个类只有一个Class对象),这个对…

湖南(市场调研公司)源点咨询 如何进行精准化用户画像细分研究

湖南源点咨询认为,用户画像,是根据用户的基本属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。我们在这里为大家分析为什么要建立用户画像,进行用户细分调研。 一、什么是用户画像 简单来讲,就是想要在通…

Java每日一练,技术成长不间断

目录 题目1.下列关于继承的哪项叙述是正确的?2.Java的跨平台特性是指它的源代码可以在多个平台运行。()3.以下 _____ 不是 Object 类的方法4.以下代码:5.下面哪个流类不属于面向字符的流()总结 题目 选自牛…

KubeSphere 部署向量数据库 Milvus 实战指南

作者:运维有术星主 Milvus 是一个为通用人工智能(GenAI)应用而构建的开源向量数据库。它以卓越的性能和灵活性,提供了一个强大的平台,用于存储、搜索和管理大规模的向量数据。Milvus 能够执行高速搜索,并以…

一文剖析高可用向量数据库的本质

面对因电力故障、网络问题或人为操作失误等导致的服务中断,数据库系统高可用能够保证系统在这些情况下仍然不间断地提供服务。如果数据库系统不具备高可用性,那么系统就需要承担停机和数据丢失等重大风险,而这些风险极有可能造成用户流失&…

python中的print函数总结

文章目录 打印变量打印数学计算多行文本复制n次字符串 x*n,n*x不换行输出多个数据换行符制表位转义原字符字符串切片格式化字符串千位分隔符(只适用于整数和浮点数)浮点数小数部分的精度字符串类型,.表示最大的显示长度整数类型浮点数类型 打…

(新)VMware虚拟机安装Linux教程(超详细)

创作不易,禁止转载抄袭!!!违者必究!!! 创作不易,禁止转载抄袭!!!违者必究!!! 创作不易,禁止转载抄…

C语言:扫雷游戏实现

一、扫雷游戏的分析和设计 扫雷游戏想必大家都玩过吧,初级的玩法是在一个9*9的棋盘上找到没有雷的格子,而今天我们就要做的就是9*9扫雷游戏的实现。 1、游戏功能和规则 使用控制台实现经典的扫雷游戏游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘…

Flink SQL 的工作机制

前言 Flink SQL 引擎的工作流总结如图所示。 从图中可以看出,一段查询 SQL / 使用TableAPI 编写的程序(以下简称 TableAPI 代码)从输入到编译为可执行的 JobGraph 主要经历如下几个阶段: 将 SQL文本 / TableAPI 代码转化为逻辑执…

面试经典算法150题系列-数组/字符串操作之多数元素

序言:今天是第五题啦,前面四题的解法还清楚吗?可以到面试算法题系列150题专栏 进行复习呀。 温故而知新,可以为师矣!加油,未来的技术大牛们。 多数元素 给定一个大小为 n 的数组 nums ,返回其…

C#实现深度优先搜索(Depth-First Search,DFS)算法

深度优先搜索(DFS)是一种图搜索算法,它尽可能深入一个分支,然后回溯并探索其他分支。以下是使用C#实现DFS的代码示例: using System; using System.Collections.Generic;class Graph {private int V; // 顶点的数量pr…

大模型算法备案流程最详细说明【流程+附件】

文章目录 一、语料安全评估 二、黑盒测试 三、模型安全措施评估 四、性能评估 五、性能评估 六、安全性评估 七、可解释性评估 八、法律和合规性评估 九、应急管理措施 十、材料准备 十一、【线下流程】大模型备案线下详细步骤说明 十二、【线上流程】算法备案填报…

ChatGLM3-6B模型部署微调实战

准备 视频教程 https://www.bilibili.com/video/BV1ce411J7nZ?p14&vd_source165c419c549bc8d0c2d71be2d7b93ccc 视频对应的资料 https://pan.baidu.com/wap/init?surlAjPi7naUMcI3OGG9lDpnpQ&pwdvai2#/home/%2FB%E7%AB%99%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%90%E8…

HTTP协议详解(一)

协议 为了使数据在网络上从源头到达目的,网络通信的参与方必须遵循相同的规则,这套规则称为协议,它最终体现为在网络上传输的数据包的格式。 一、HTTP 协议介绍 HTTP(Hyper Text Transfer Protocol): 全…

Monorepo简介

Monorepo 第一章:与Monorepo的邂逅第二章:Multirepo的困境第三章:Monorepo的魔力 - 不可思议的解决问题能力第四章:Monorepo的挑战与应对策略第五章:总结第六章:参考 第一章:与Monorepo的邂逅 …