GPT1:Imporoving Language Understanding By Generative Pre-training
GPT2:Lanuage Models Are Unsupervised Multitask Learners
GPT3:Language Models Are Few-shot Learners
GitHub:https://github.com/openai/gpt-3
从GPT三个版本的论文名也能看出各版本模型的重点:
- GPT1:强调预训练
- GPT2:强调Unsupervised Multitask就是说下游任务fintune的时候不用重新调整模型结构了
- GPT3:强调Few-shot 就是连finetune都省了,巨大的参数空间,可以直接few-shot甚至zero-shot
前言
Generative Pre-trained Transformer(GPT)系列是由OpenAI提出的非常强大的预训练语言模型,这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,而完成这些任务并不需要有监督学习进行模型微调。