GPT系列模型简要概述

GPT-1：（0.117B参数量，0.8B words预训练数据)

动机：

在RNN和Transformer之间，选择了后者。

和《All your need is Attention》翻译模型的Encoder-Decoder架构相比，只保留Decoder，因此去掉了Cross-Attention层。没有使用sin、cos做位置编码，用的是可训练的位置编码。0.117B参数量。

预训练：

注意：是Embedding和最后一层分类层，参数共享的。原因：这个时期的模型参数小，Embedding参数量占的比重高，共享可以降低参数量。现在的模型参数大，Embedding占的比重小，都不再共享了。

微调(Fine Tune):

将上了特殊Token(Start、Extract、Delim)，让模型感知到在做NLP任务，而不是在做句子生成。

Similarity任务，将句子1和句子2，用不同的顺序，做成2个样本，激活值相加，最后进Linear层去分类。

多选题任务，题目+选项，得到1个数值；每个选项都得到1个数值，这些数值做softmax；

Trick: 微调任务和预训练任务，同时进行训练。

训练数据：

Bert：

双向Encoder预训练；最后加1层线形层做下游任务微调。

效果碾压GPT-1:

GPT-2（1.542B参数量，40GB文字训练数据量）

动机：

下游任务，放弃特殊token，改用prompt：

模型变化：

训练变化：

效果：比不过FineTune模型。但发现了规律：随着参数量增大，效果仍可继续上升。

GPT-3: (175B参数量，300B token预训练数据量）

动机：

模型修改：

引入稀疏注意力机制（每个token只和前面的部分token进行attention计算，而不是前面全部token)

训练数据：

不同来源的数据，采样比例不一样。（质量差的数据，就少采样一些）

效果：超过了最好的Fine tune模型。