欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128909400
GPT、GPT-2、GPT-3:Generative Pre-trained Transformer,生成式预训练Transformer
-
Wiki: https://en.wikipedia.org/wiki/GPT-3
-
GPT-3 Demo: https://gpt3demo.com/
时间线:
- Transformer, 2017.6, Attention is all you need
- GPT, 2018.6, Improving Language Understanding by Generative Pre-Training: 使用Transformer的解码器,在没有标签的文本上,预训练模型
- BERT, 2018.10, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding: Bidirectional Encoder Representations from Transformers,Transformer的编码器
- GPT-2, 2019.2, Language Models are Unsupervised Multitask Learners: Transformer的解码器,Zero-Shot
- GPT-3, 2020.5, Language Models are Few-Shot Learners: 数据和模型都扩大100倍
GPT
Improving Language Understanding by Generative Pre-Training
- 使用通用预训练,提升语言理解能力
Transformer比RNN的迁移更加稳定
算法框架:
- Transformer解码器,带有mask进行训练
微调:
Transformer架构和训练目标:
- 用于微调不同任务的输入转换
- 我们将所有结构化输入转换为标记序列,以供我们的预训练模型处理,然后是 线性+softmax 层
四大任务:Start、Extract(抽取)、Delim(边界,delimiter)
- 分类:Classification,一句话或一段文本,预测一个标签
- 蕴含:Entailment,Premise -> Hypothesis,两段文本执行三分类,是否蕴含,即支持假设、不支持假设、既不支持也不反对假设。
- 相似:Similarity,对称关系,没有先后关系
- 多选:Multiple Choice,多选题,输出3个标量,最后做一个softmax
Transformer的结构是不会修改
数据集:BooksCorpus数据集,BERT Base == GPT的参数,BERT Large (3.4亿参数) 是 BERT Base 的3倍,BERT的数据集是GPT4倍。
GPT-2
GPT2: Language Models are Unsupervised Multitask Learners
- 语言模型是无监督的多任务学习器
数据集:BooksCorpus -> Wikipedia (BERT) -> WebText
Zero-Shot的设定
模型的泛化性,不好,Multitask Learning
数据构造:开始符(Start)、结束符(Delim)、分割符(Extract),输入形式更像语言
Prompt提示,例如:
- translate to french, english text, french text
- answer the question, document, question, answer
训练数据:
- Common Crawl,公开爬取,信噪比较低
- Reddit,排名靠前的新闻聚合网页
- 读过有一定价值,4500个链接,800万个文本,40GB文字
最大15亿参数
GPT-3
GPT3: Language Models are Few Shot Learners
- 语言模型是少样本学习器
GPT3不做微调,不做梯度更新,可以生成新闻的文章。
不需要更新任何权重,元学习(meta learning),上下文学习(in-context learning)
GPT参数,1750亿个参数
Zero-Shot、One-Shot、Few-Shot
不做梯度更新(Fine-tuning):
- 任务描述,翻译 => ,即prompt
结构:参考Sparse Transformer
- Generating long sequences with sparse transformers
- 参考:NLP论文解读:Generating Long Sequences with Sparse Transformers
小模型用小batch size,大模型用大batch size,各级模型:
Sparse Transformer
Residual Block
数据集:正类WebText2,负类Common Crawl,二分类清洗Common Crawl
采样K个样本作为条件,二分类是True或者False,答案是自由,问答,Beam Search寻找答案。
计算量指数增加,验证loss线性下降
BERT是编码器,GPT是解码器,T5是编码器+解码器
GPT3生成的英文稿、问答。
模型的局限性(Limitations)
GPT3的文本生成比较弱,写一段比较好,GPT3是往前看,不能向后看,每一次预测下一个次,没有告诉哪个词比较重要,哪个词不重要。
只用文本,没有使用其他模态。
样本有效性比较低。
GPT3决策很难,模型解释性差。