Transformers正在席卷 NLP 世界,因为它是理解上下文的强大引擎。这些令人难以置信的模型正在打破多项 NLP 记录并推动最先进的技术发展。它们被用于许多应用程序,如机器语言翻译、NER、摘要、会话聊天机器人,甚至用于支持更好的搜索引擎。在我最近关于 Transformers 的帖子- Attention is all you need中,我们介绍了有关 Transformers 的详细直觉和方法。在这篇文章中,我们将重点介绍GPT 3架构和最新聊天 GPT LM 架构的直觉和方法。
GPT 3 语言模型
GPT-3 (Generative Pre-trained Transformer 3) 是一种由 OpenAI 创建的语言模型。1750 亿参数的深度学习模型能够生成类似人类的文本,并在具有数千亿字的大型文本数据集上进行训练。
GPT 使用未修改的 Transformer 解码器,只是它缺少编码器注意力部分。我们可以在上图中直观地看到这一点。GPT、GPT2、GPT 3 是使用 transformer 解码器块构建的。另一方面,BERT 使用变压器编码器块。GPT-3 使用庞大的互联网文本数据集进行训练——总共 570GB。发布时是最大的神经网络,有 1750 亿个参数(100x GPT-2)。GPT-3 有 96 个注意力块,每个注意力块包含 96 个注意力头
GPT3 的实际工作原理——预训练
GPT-3 使用与