全面了解大语言模型,这有一份阅读清单

机器之心报道

机器之心编辑部

进NLP群—>加入NLP交流群

了解当代大型语言模型背后的设计、约束和演变,你可以遵循本文的阅读清单。

大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全改变了自然语言处理领域。此外,它们还开始在计算机视觉和计算生物学等领域引发革命。

鉴于Transformers对每个人的研究进程都有如此大的影响,本文将为大家介绍一个简短的阅读清单,供机器学习研究人员和从业者入门使用。

下面的列表主要是按时间顺序展开的,主要是一些学术研究论文。当然,还有许多其他有用的资源。例如:

  • Jay Alammar撰写的《The Illustrated Transformer》

  • Lilian Weng撰写的《The Transformer Family》

  • Xavier Amatriain撰写的《Transformer models: an introduction and catalog — 2023 Edition》

  • Andrej Karpathy写的nanoGPT库

对主要架构和任务的理解

 如果你是Transformers、大型语言模型新手,那么这几篇文章最适合你。 

论文1:《Neural Machine Translation by Jointly Learning to Align and Translate》

a9188cb85c2ec83ee2b4faaed9f78705.png

论文地址:https://arxiv.org/pdf/1409.0473.pdf

本文引入了一种循环神经网络(RNN)注意力机制,提高了模型远程序列建模能力。这使得RNN能够更准确地翻译较长的句子——这也是后来开发原始Transformer架构的动机。 

a64b7a27bdff0a99bc45e364a1a15877.png图源: https://arxiv.org/abs/1409.0473

论文2:《Attention Is All You Need》

402e62213f42cfbe949881d7aa8e071b.png

论文地址:https://arxiv.org/abs/1706.03762

本文介绍了由编码器和解码器组成的原始Transformer架构,这些部分将在以后作为单独模块进行相关介绍。此外,本文还介绍了缩放点积注意力机制、多头注意力块和位置输入编码等概念,这些概念仍然是现代Transformer的基础。

89dfbb3ee159a4f090292360edcf38ce.png

图源:https://arxiv.org/abs/1706.03762

论文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

32d5435e9ed5481ae18569ae2b528fee.png

论文地址:https://arxiv.org/abs/1810.04805

大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:用于预测建模任务(如文本分类)的Transformer和用于生成建模任务(如翻译、摘要和其他形式的文本创建)的Transformer 。 

BERT论文介绍了掩码语言建模原始概念,如果你对这个研究分支感兴趣,那么可以跟进RoBERTa,其简化了预训练目标。 

6a09e5e79ca6b1720277580be8746edf.png图源:https://arxiv.org/abs/1810.04805

论文4:《Improving Language Understanding by Generative Pre-Training》

9d35a232961c7fe25435833fb259dcfc.png

论文地址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

最初的GPT论文介绍了流行的解码器风格的架构和通过下一个单词预测进行预训练。BERT由于其掩码语言模型预训练目标,可以被认为是一个双向Transformer,而GPT是一个单向自回归模型。虽然GPT嵌入也可以用于分类,但GPT方法是当今最有影响力的LLMs(如ChatGPT)的核心。 

如果你对这个研究分支感兴趣,那么可以跟进GPT-2和GPT-3的论文。此外,本文将在后面单独介绍InstructGPT方法。 

10e3a2d9022e2ca054f2475ef660f975.png

论文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

082d1a1b27cb66688ae755c954489097.png

论文地址 https://arxiv.org/abs/1910.13461.

如上所述, BERT型编码器风格的LLM通常是预测建模任务的首选,而GPT型解码器风格的LLM更擅长生成文本。为了两全其美,上面的BART论文结合了编码器和解码器部分。

8398fd8ac0fbd23f532722945c62ce95.png

扩展定律与效率提升

如果你想了解更多关于提高Transformer效率的技术,可以参考以下论文

  • 论文1:《A Survey on Efficient Training of Transformers》

  • 论文地址:https://arxiv.org/abs/2302.01107

  • 论文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》

  • 论文地址:https://arxiv.org/abs/2205.14135

  • 论文3:《Cramming: Training a Language Model on a Single GPU in One Day》

  • 论文地址:https://arxiv.org/abs/2212.14034

  • 论文4:《Training Compute-Optimal Large Language Models》

  • 论文地址:https://arxiv.org/abs/2203.15556

此外,还有论文《Training Compute-Optimal Large Language Models》

论文地址:https://arxiv.org/abs/2203.15556

本文介绍了700亿参数的Chinchilla模型,该模型在生成建模任务上优于流行的1750亿参数的GPT-3模型。然而,它的主要点睛之处在于,当代大型语言模型训练严重不足。

本文定义了用于大型语言模型训练的线性scaling law。例如,虽然Chinchilla的大小只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)token上进行训练的。换句话说,训练token的数量和模型大小一样重要。

cc02617586fea0ea6e283009610dc439.png

对齐——将大型语言模型朝着预期的目标和兴趣引导

近年来出现了许多相对强大的大型语言模型,它们可以生成真实的文本(例如GPT-3和Chinchilla)。就常用的预训练范式而言,目前似乎已经达到了一个上限。

为了使语言模型更能帮助到人类,减少错误信息和不良语言,研究人员设计了额外的训练范式来微调预训练的基础模型,包括如下论文。

  • 论文1:《Training Language Models to Follow Instructions with Human Feedback》

  • 论文地址:https://arxiv.org/abs/2203.02155

在这篇所谓的InstructGPT论文中,研究人员使用了RLHF(Reinforcement Learning from Human Feedback)。他们从预训练的GPT-3基础模型开始,并使用监督学习对人类生成的提示响应对进行进一步微调(步骤1)。接下来,他们要求人类对模型输出进行排序以训练奖励模型(步骤2)。最后,他们使用奖励模型通过近端策略优化(步骤3)使用强化学习来更新预训练和微调的GPT-3模型。

顺便说一句,这篇论文也被称为描述ChatGPT背后思想的论文——根据最近的传言,ChatGPT是InstructGPT的扩展版本,它在更大的数据集上进行了微调。

b4b4fcdeae342a68d471297883f30e4a.png

  • 论文2:《Constitutional AI: Harmlessness from AI Feedback》

  • 论文地址:https://arxiv.org/abs/2212.08073

在这篇论文中,研究人员进一步推进了对齐的想法,提出了一种创建「harmless」的AI系统的训练机制。研究人员提出了一种基于规则列表(由人类提供)的自训练机制,而不是直接由人类监督。与上面提到的InstructGPT论文类似,所提出的方法使用了强化学习方法。

ec79c7054e8fd2b9d2b7b97e8ce0570d.png

总结

本文对上方表单的排列尽量保持简洁美观,建议重点关注前10篇论文,以了解当代大型语言模型背后的设计、局限和演变。

如果想深入阅读,建议参考上述论文中的参考文献。或者,这里有一些额外的资源,供读者进一步研究:

GPT的开源替代方案

  • 论文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》

  • 论文地址:https://arxiv.org/abs/2211.05100

  • 论文2:《OPT: Open Pre-trained Transformer Language Models》

  • 论文地址:https://arxiv.org/abs/2205.01068

ChatGPT的替代方案

  • 论文1《LaMDA: Language Models for Dialog Applications》

  • 论文地址:https://arxiv.org/abs/2201.08239

  • 论文2:《Improving alignment of dialogue agents via targeted human judgements》

  • 论文地址:https://arxiv.org/abs/2209.14375

  • 论文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》

  • 论文地址:https://arxiv.org/abs/2208.03188

计算生物学中的大型语言模型

  • 论文1:《 ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning 》

  • 论文地址:https://arxiv.org/abs/2007.06225

  • 论文2:《Highly accurate protein structure prediction with AlphaFold》

  • 论文地址:https://www.nature.com/articles/s41586-021-03819-2

  • 论文3:《Large Language Models Generate Functional Protein Sequences Across Diverse Families》

  • 论文地址:https://www.nature.com/articles/s41587-022-01618-2

原文链接:https://sebastianraschka.com/blog/2023/llm-reading-list.html


进NLP群—>加入NLP交流群

知识星球:NLP学术交流与求职群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 最新最优质的论文速读。用几秒钟就可掌握论文大致内容,包含论文一句话总结、大致内容、研究方向以及pdf下载等。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于:情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

f11563ba33fb763b03c24dbe87f78b97.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55276.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT能给IOT行业带来哪些改变

引言# 随着移动互联网、传感器的发展,移动互联的潮流逐渐转移到物联网行业,每个设备成为了物联网连接的终端。 与传统的设备相比,智能设备最突出的特点就是智能化。目前,在市场上的智能设备通过智能程序设定或者语音来执行人类下…

女朋友的道歉方式

1 女朋友的道歉方式 2 看吧,无聊的时候什么事都干得出来3 这猫太坏了!4 还以为是特效,原来是实物 5 叉子的妙用 6 也太信任这块玻璃了吧…… 7 棉花糖炸酱面......大家感受一下 你点的每个赞,我都认真当成了喜欢

史上最难的初等几何问题?分享一个参考答案

题目发出后,大家的回应似乎比我想象中的更积极,我看到了好几个不同的正确解答。加上我本来知道的几种做法,现在我已经知道了至少5种正确的解法。现在随便发一个,供大家参考。 我们首先从号称世界第二难的几何题“50-60三角形”…

一道有趣的几何证明题

上初中的时候在课外书上看到过一个数学题目,那时觉得特别有趣,后来了在大学里也常常会想起这个数学题。今天在这里跟大家分享下! 题目是:证明任意一个个三角形都是等腰三角形。 初看这个题目,大家都可能会有疑问&…

【证明题】(一)微分中值定理

目录 微分中值定理单中值一阶导数中值定理问题二阶导数中值定理问题 双中值 ϵ , η \epsilon,\eta ϵ,η 可能相等 ϵ , η \epsilon,\eta ϵ,η 不可相等 中值不等式拉格朗日证明题泰勒公式证明题 参考资…

MathGraph: 一个用来自动求解高中数学习题的数学知识图谱

论文地址: MathGraph:A Knowledge Graph for Automatically Solving Mathematical Exercises 贡献: 设计了一个数学知识图MathGraph,包括实体和关系 设计几个算法,将数学习题与MathGraph对齐,用对齐后的子…

有趣数学1的证明

之前说了利用以10为底数巧算首位数字,答案是得到了,但是需要证明这种方法确实是正确的,其实证明非常简单。 证明:令x^y t 两边同时取以x为底,y 得到 y * . 由于数字都是以10进制展示的,我们设t的…

高数证明题技巧总结

中值定理 1.要证明一个不等式&#xff0c;有常数a和b&#xff0c;且出现了g(b)-g(a)和b-a&#xff0c;则一般使用拉格朗日中值定理&#xff0c;将g(b)-g(a)化为g(ξ)(b-a)&#xff0c;证明g(ξ)大于或小于原式中(b-a)的系数 例如&#xff0c;证明&#xff1a;当e<a<b&l…

一道初等平面几何竞赛题的暴力解法

问题 一道初中数学竞赛&#xff0c;平面几何题计算&#xff1a; 这里改成了证明题&#xff0c;反正思路是一样的。 暴力解法 中学的题就应该有中学的解法。但是&#xff0c;看习惯了高等数学的内容之后&#xff0c;更习惯暴力解法。暴力破解的方法是怎样的&#xff1f; …

证明题(考研)

1.kruskal 设图共有k个顶点 当k2时&#xff0c;图G只有一条边&#xff0c;显然最短边为此边&#xff0c;图G的最小生成树为其自身。 设kn时&#xff0c;成立。 对于有n1个顶点的图G&#xff0c;接最短边e后&#xff0c;剩余n个顶点待连接&#xff0c;由假设&#xff0c;成立&am…

离散数学中 集合、关系、群 的证明方法(英文证明附例题)

文章目录 集合子集关系句式 两个集合相等句式例子 划分&#xff08;partition&#xff09;句式例子 关系关系R的自反性&#xff08;reflexive&#xff09;反自反&#xff08;irreflexive&#xff09;句式 关系R的对称性&#xff08;symmetric&#xff09;反对称&#xff08;ant…

中值定理证明题解题思路

对于只有一个未知量的&#xff0c;通常是把未知量替换为x。令等式一边为0&#xff0c;然后把另一边当作F(x)&#xff0c;然后找原函数。在写解题过程时&#xff0c;不写如何求得F(x)的&#xff0c;直接设F(x)&#xff0c;然后证明F(x)符合某一种中值定理。 例1&#xff1a;f(x)…

回忆当年高考的一道数学证明题

恰逢高考季&#xff0c;昨夜又做梦&#xff0c;与高中相关&#xff0c;就索性来写一篇&#xff0c;题目自定&#xff0c;立意自选。 每年高考后&#xff0c;我都会拿湖北高考的数学试卷做一下&#xff0c;这也许是特殊的爱好吧。知识点和公式基本没有忘记&#xff0c;熟练度肯定…

【期权系列】顶部和底部信号:期权看跌看涨比(PCR)

【期权系列】顶部和底部信号&#xff1a;期权看跌看涨比&#xff08;PCR&#xff09; 本篇文章是基于研究报告的复现作品&#xff0c;旨在记录个人的学习过程和复现过程中的一些思路。 感谢华福证券研究员前辈的宝贵思路。 一、期权看跌看涨比&#xff08;PCR: PutCallRatio&a…

“风口猪”指标-寻找大牛股的波段机会

1. “风口猪”指标简介和用法&#xff1a; 为了抓住大牛股的波段行情&#xff0c;买在行情启动阶段&#xff0c;先找到风口&#xff0c;就可以看到猪飞起来了&#xff01; 4根均线&#xff1a;MA5&#xff0c;MA10是短线&#xff0c;MA60和MA250是长线、 主图指标上有 买入&…

c 语言编写的一元二次方程的根,C#程式求一元二次方程根

C#程式求一元二次方程根以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! C#程式求一元二次方程根, c# 由使用者输入a,b,c求一元二次方程根的程式 public static void Main() {double a, b, c; Console.Write(&quo…

怎么用计算机算一元三次方程,一元三次方程计算器求解(附使用方法)

一元三次方程计算器是一款十分好用的方程计算软件&#xff0c;该软件采用牛顿迭代法计算&#xff0c;用户输入参数A和B就可得出X的值了&#xff0c;还可计算复数根&#xff0c;软件操作简单&#xff0c;十分好用&#xff0c;需要的朋友赶紧来本站下载吧&#xff01; 一元三次方…

一元线性回归方程C语言实现

之前没写对&#xff0c;尴尬&#xff0c;于是重新研究了一遍&#xff0c;啊&#xff0c;确实没写对大佬帮改了一下 首先来看看如何求线性回归方程公式http://www.gaosan.com/gaokao/263926.html 第一&#xff1a;用所给样本求出两个相关变量的(算术&#xff09;平均值 第二&…

接口测试用例生成工具介绍及应用

背景 目前&#xff0c;接口测试是开展项目测试实施过程中非常重要的环节&#xff0c;对于新增接口和修改接口更是需要做到应测必测&#xff0c;但是在实施过程中普遍存在一些问题&#xff0c;经分析总结如下&#xff1a; 1.耗时长&#xff1a; 接口测试整体流程较长&#xff…