GPT-1:(0.117B参数量,0.8B words预训练数据)
动机:
在RNN和Transformer之间,选择了后者。
和《All your need is Attention》翻译模型的Encoder-Decoder架构相比,只保留Decoder,因此去掉了Cross-Attention层。没有使用sin、cos做位置编码,用的是可训练的位置编码。0.117B参数量。
预训练:
注意:是Embedding和最后一层分类层,参数共享的。原因:这个时期的模型参数小,Embedding参数量占的比重高,共享可以降低参数量。现在的模型参数大,Embedding占的比重小,都不再共享了。
微调(Fine Tune):
将上了特殊Token(Start、Extract、Delim),让模型感知到在做NLP任务,而不是在做句子生成。
Similarity任务,将句子1和句子2,用不同的顺序,做成2个样本,激活值相加,最后进Linear层去分类。
多选题任务,题目+选项,得到1个数值;每个选项都得到1个数值,这些数值做softmax;
Trick: 微调任务和预训练任务,同时进行训练。
训练数据:
Bert:
双向Encoder预训练;最后加1层线形层做下游任务微调。
效果碾压GPT-1:
GPT-2(1.542B参数量,40GB文字训练数据量)
动机:
下游任务,放弃特殊token,改用prompt:
模型变化:
训练变化:
效果:比不过FineTune模型。但发现了规律:随着参数量增大,效果仍可继续上升。
GPT-3: (175B参数量,300B token预训练数据量)
动机:
模型修改:
引入稀疏注意力机制(每个token只和前面的部分token进行attention计算,而不是前面全部token)
训练数据:
不同来源的数据,采样比例不一样。(质量差的数据,就少采样一些)
效果:超过了最好的Fine tune模型。
GPT-4:
效果:霸榜Top-1
Insight: