文章目录
- 能力评估
- 基础任务
- 语言生成
- 知识利用率
- 复杂推理
- 高级能力评估
- 人类对戏
- 与外部环境的交互作用
- 扩展能力范围
- 公共基准测试和经验分析
- 评价基准
- 对LLM的能力进行全面分析
- 结论和未来方向
能力评估
为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估和分析。我们首先介绍了LLM语言生成和理解的三种基本评估任务,然后介绍了LLM具有更复杂设置或目标的几个高级任务,最后讨论了现有的基准和实证分析。
基础任务
在这一部分中,我们主要关注LLM的三种评估任务,即语言生成、知识利用和复杂推理。值得注意的是,我们不打算完全覆盖所有相关的任务,而是只关注LLMs最广泛讨论或研究的任务。接下来,我们将详细介绍这些任务。
语言生成
根据任务定义,现有的语言生成任务大致可以分为语言建模任务、条件文本生成任务和代码合成任务。请注意,代码合成不是典型的NLP任务,我们将其包括在讨论中,因为它可以由大多数llm(在代码数据上训练)以类似于自然语言文本的生成方法直接解决。
语言建模是LLM中最基本的能力。它通过预测前面的token来预测下一个token,主要关注基本语言理解和生成的能力。常用的评估数据集包括Penn Treebank、WikiText-103和Pile,通常使用困惑度来评估零-shot下的模型性能。经验证明,LLM在这些评估数据集上的表现优于现有技术的方法。为了更好地测试长程依赖在文本中的建模能力,引入了LAMBADA数据集。在该数据集上,LLMs需要根据上下文段落来预测句子的最后一个单词,并使用预测的准确性和困惑度对模型进行评估。
条件文本生成是语言生成的重要主题,它致力于基于给定条件生成满足特定任务需求的文本。常用的自动度量标准(如Accuracy、BLEU和ROUGE)和人工评分被用于评估性能。由于强大的语言生成能力,LLMs在现有数据集和基准测试上取得了显着的性能,甚至超过了人类表现。因此,有人担心现有的生成任务基准测试是否能适当地评估和反映LLMs的能力。考虑到这个问题,研究人员尝试通过收集目前无法解决的任务或创建更具挑战性的任务(如超长文本生成)来制定新的评估基准(如BIG-bench Hard)。此外,最近的研究还发现,自动度量标准可能低估了LLMs的生成质量。因此,需要更多的努力开发更符合人类判断的新指标。
除了能够生成高质量自然语言,现有的LLMs还展现了强大的生成形式语言的能力,特别是满足特定条件的计算机程序(即代码),称为代码合成。与自然语言生成不同的是,由于生成的代码可以直接通过相应的编译器或解释器进行检查,因此现有的工作主要通过计算测试用例的通过率(即pass@k)来评估LLMs生成代码的质量。最近,提出了几个专注于功能正确性的代码基准,如APPS、HumanEval和MBPP。为了提高这种能力,关键是将LLMs微调(或预训练)到代码数据上,这可以有效地使LLMs适应代码合成任务。此外,现有的工作还提出了生成代码的新策略,例如采样多个候选解和计划引导解码,这可以被认为是程序员通过模仿错误修复和代码规划过程来做到。令人印象深刻的是,LLMs最近在编程竞赛平台Codeforces上实现了与人类竞争的表现,排名在前28%。此外,GitHub Copilot已经发布,以在编码IDE(如Visual Studio和JetBrains IDEs)中协助编程,并支持包括Python、JavaScript和Java在内的各种语言。ACM通信上的一篇名为“编程的结束”的观点文章讨论了AI编程对计算机科学领域的影响,强调了一个重要的变化,即高度适应性的LLM作为新的计算原子单位。
尽管LLMs在生成类似于人类的文本方面取得了出色的表现,但它们容易受到以下两个主要语言生成问题的影响。首先,对于LLMs,生成给定条件下的文本的主流方式是通过使用自然语言指令或提示。尽管这种机制十分简单,但对于对结构施加细粒度或结构化约束的生成文本的复杂条件,该机制在达成这些模型生成的输出方面面临重大挑战。为了解决这个问题,一种潜在的解决方案是将单通通过程扩展到LLMs的迭代提示。其核心思想是将语言生成分解成多个步骤,如规划、草案、改写和编辑,以模拟人类写作过程。其次,虽然LLMs已经学习了通用的语言模式生成连贯的文本,但它们在处理专业领域或任务时可能会面临挑战。直觉上,领域知识应该对模型的专业化至关重要。但是,将这种专业化知识注入到LLMs中不容易。因此,需要开发有效的模型专业化方法,能够灵活地使LLMs适应各种任务场景,同时尽可能地保持原始能力。
知识利用率
知识利用是智能系统在支持事实证据的基础上完成知识密集型任务(如常识问答和事实补全)的重要能力。具体来说,它要求LLM在必要的时候能够适当地利用预训练语料库中丰富的事实知识或检索外部数据。其中,问答(QA)和知识补全(knowledge completion)是评价该能力的两项常用任务。根据测试任务(问答或知识完成)和评估设置(有或没有外部资源),我们将现有的知识利用任务分为三种类型,即闭卷QA、开卷QA和知识完成。
闭卷QA 闭卷QA任务测试LLM从预训练语料库中获得的事实知识,LLM应仅根据给定的上下文回答问题,而不使用外部资源。为评估这种能力,可以利用几个数据集,包括Natural Questions、Web Questions和TriviaQA,其中精度度量被广泛采用。经验结果表明,LLM在这种情况下可以表现良好,甚至可以与最先进的开放域QA系统的性能相匹配。此外,LLM在闭卷QA任务中的表现在模型大小和数据大小上也表现出缩放定律模式:缩放参数和训练令牌可以增加LLM的容量,帮助它们从预训练数据中学习(或记忆)更多的知识。此外,在相似的参数尺度下,拥有更多与评估任务相关的预训练数据的LLMs将获得更好的性能。此外,闭卷QA设置也为探究LLM编码的事实知识的准确性提供了一个测试平台。然而,如现有工作所示,即使在预训练数据中存在细粒度知识,LLM在依赖于细粒度知识的QA任务中也可能表现不佳。
开卷QA 与闭卷式QA不同,在开卷式QA任务中,LLM可以从外部知识库或文档集中提取有用的证据,然后根据提取的证据回答问题。典型的开卷质检数据集(如Natural Questions、OpenBookQA和SQuAD)与闭卷质检数据集有重叠之处,但它们结合了外部数据源,如维基百科等。准确度和F1分数的指标被广泛用于开卷QA任务的评估。为了从外部资源中选择相关知识,LLM通常与文本检索器(甚至是搜索引擎)配对,后者是独立或与LLM共同训练的在评估方面,现有的研究主要集中在测试LLM如何利用提取的知识来回答问题,并表明检索的证据可以在很大程度上提高生成答案的准确性,甚至使一个较小的LLM胜过10倍大的LLM。此外,开卷的QA任务还可以评估知识信息的时效性。预先训练或从过时的知识资源中检索可能会导致LLM对时间敏感的问题产生错误的答案。
知识补全在知识补全任务中,LLM可能(在某种程度上)被视为一个知识库,可以利用它来完成或预测知识单元(例如,知识三要素)的缺失部分。这样的任务可以探测和评估LLM从预训练数据中学习了多少知识和哪种知识。现有的知识完成任务大致可分为知识图谱完成任务(如FB15k237和WN18RR)和事实完成任务(如WikiFact),它们分别旨在完成知识图谱中的三要素和关于特定事实的不完整句子。经验研究表明,现有的LLM很难完成特定领域的知识完成任务。如对WikiFact的评估结果所示,LLM在预训练数据中出现的几种频繁关系(如货币和作者)上表现良好,而在罕见关系(如发现者_或发明者和出生地)上则表现不佳。有趣的是,在相同的评估设置下(如incontext learning),InstructGPT(即text-davinci-002)在WikiFact的所有子集上都胜过GPT-3。这表明指令的调整有助于LLMs完成知识完成任务。
主要问题尽管LLM在获取和利用知识信息方面取得了关键性的进展,但它们存在着以下两个主要问题。
生成事实型文本时,一个具有挑战的问题是幻觉生成,即生成的信息与现有来源相冲突(内在幻觉)或不能被现有来源验证(外在幻觉),这在图7中用两个例子说明。幻觉在现有LLMs中经常发生,甚至是最优秀的LLMs,如GPT-4。 LLMS似乎“无意识地”利用任务解决中的知识,仍然缺乏准确控制内在或外部知识使用的能力。幻觉会导致LLMs生成不良输出并且大部分是性能下降,这在实际应用中可能存在潜在风险。为了缓解这个问题,已有研究开发了对齐调整策略来求解高质量数据或使用人类反馈对LLMs进行调整。还提出了一些幻觉检测任务,例如TruthfulQA用于检测模型模仿的虚假性。另一个主要障碍是LLMs遇到需要最新知识的任务时可能会遇到困难。解决这个问题的一个直接方法是定期使用新数据更新LLMs,但这是非常昂贵的,同时还可能导致灾难性遗忘问题。因此,需要开发高效的方法将新知识集成到现有LLMs中,使它们保持最新。现有研究探索如何利用外部知识源(例如搜索引擎)来补充LLMs,可以与LLMs一起进行优化或作为即插即用模块使用,例如ChatGPT就利用检索程序访问最新的信息源。通过将提取的相关信息纳入上下文,LLMs可以获得新的事实知识,并在相关任务上表现更好。然而,这种方法似乎仍处于表面级别,直接修改内在知识或将特定知识注入LLMs仍然是一个未解决的研究问题。
复杂推理
复杂推理指的是理解和利用支持性证据或逻辑来得出结论或做出决策的能力 。 根据推理过程中涉及的逻辑和证据类型,我们考虑将现有的评估任务分为三个主要类别,即知识推理、符号推理和数学推理。
知识推理任务依赖于逻辑关系和与事实知识相关的证据来回答给定问题。目前的研究主要使用特定数据集来评估不同类型知识的推理能力,例如,CSQA/StrategyQA用于常识知识推理,ScienceQA用于科学知识推理。任务要求LLMs根据事实知识进行逐步推理,直到找到答案。为了引出逐步推理能力,CoT提示策略被提出来增强LLM的复杂推理能力。这种方式大大提高了LLM的推理性能,并在多个复杂知识推理任务上取得了最新成果。然而,由于知识推理任务的复杂性,LLM的性能仍然落后于人类结果。其中最常见的错误是LLM可能会根据错误的事实知识生成不准确的中间步骤,导致最终的错误结果。为了解决这些问题,现有研究提出了专门的解码或集成策略以提高整个推理链的准确性。最近的实证研究表明,LLM可能难以明确推断特定任务所需的常识知识,尽管它们可以成功解决问题。此外,似乎利用自生成的知识对提高推理性能没有帮助。
符号推理任务主要集中在在正式规则设置中操作符号以实现某些特定目标上,操作和规则可能从未在LLMs的预训练中出现。现有研究通常在最后一个字母连接和抛硬币的任务上评估LLMs。这些任务要求LLMs理解符号操作的语义关系,并在复杂的情境中进行运算。LLMs还需要理解符号操作的复合过程,尤其在“跨域测试”中,因为它涉及到更复杂的符号操作。现有研究使用 scratchpad 和tutor 策略来帮助LLMs更好地操作符号操作,以生成更长且更复杂的推理过程。另一方面,一些研究利用形式化编程语言来表示符号操作和规则,需要LLMs生成代码并使用外部解释器执行推理过程。这种方法将复杂的推理过程分解为LLMs和解释器的代码合成和程序执行,从而导致简化的推理过程和更准确的结果。
主要问题尽管LLMs取得了进展,但在解决复杂推理任务方面仍存在一些限制。
- 不一致性。通过改进推理策略(例如CoT提示),LLMs可以通过基于支持逻辑和证据的逐步推理来解决一些复杂推理任务。尽管这样做有效,但不一致性问题经常会在分解推理过程中出现。具体而言,LLMs可能会按照无效的推理路径生成正确的答案,或者在正确推理后产生错误的答案,导致所得出的答案和推理过程之间存在不一致性。为了缓解这个问题,现有的工作提出了通过外部工具或模型指导LLMs的整个生成过程,或者重新检查推理过程和最终答案以纠正它们的方法。作为一个有前途的解决方案,最近的方法将复杂的推理任务转化为代码生成任务,其中生成的代码的严格执行确保了推理过程和结果之间的一致性。此外,已经发现,具有类似输入的任务之间也可能存在不一致性,任务描述中的小变化可能导致模型产生不同的结果。为了减轻这个问题,多个推理路径的组合可以应用于增强LLMs的解码过程。
- 数值计算。对于复杂的推理任务,LLMs在涉及到罕见符号的数值计算方面仍然面临困难,例如大数字的算术。解决这个问题的直接方法是在综合算术问题上调整LLMs。一系列研究遵循这种方法,并通过特殊训练和推理策略(例如scratchpad跟踪)进一步改进数值计算性能。此外,现有的工作也包括外部工具(例如计算器),特别用于处理算术操作。最近,ChatGPT提供了一个插件机制来使用外部工具。通过这种方式,LLMs需要学会如何正确地操纵工具。为此,研究人员已经通过工具(甚至LLMs本身)来调整LLMs,或者设计指南和示例以进行现场学习。虽然如此,这些LLMs仍然依赖于文本上下文来捕捉数学符号的语义意义(在预训练阶段),这本质上并不适合数值计算。
高级能力评估
除了上述基本的评估任务,LLM还表现出一些优越的能力,需要在评估时特别考虑。在这一部分,我们讨论几个有代表性的高级能力和相应的评价方法,包括人的排列、与外部环境的交互和工具操作。接下来,我们将详细讨论这些高级能力。
人类对戏
LLMs需要与人类价值和需求相符,即需要实现人类对齐,这是LLMs在现实世界应用中广泛使用的关键能力。现有研究使用多个标准来评估LLMs的人类对齐程度,如有用性、诚实和安全。对于有用性和诚实性,可以使用对抗性问答任务来测试LLMs检测文本可能虚假的能力。此外,还可以使用CrowS-Pairs和Winogender等现有基准来评估安全性。尽管以上数据集可以进行自动评估,但进行人工评估仍是一种更直接有效的测试LLMs人类对齐程度的方法。为了解决其他人类对齐问题,一些研究提出了使用具体指令和制定标注规则来指导标注过程的方法。实证研究表明,这些策略可以大大提高LLMs的人类对齐能力。例如,通过与专家交互收集数据进行对齐调整后,LLMs处理敏感或不允许的提示时的错误行为率可以大大降低。此外,高质量的预训练数据可以降低对齐的工作量。
与外部环境的交互作用
除了标准的评估任务外,LLMs还能够从外部环境接收反馈并按照指令执行操作,如生成自然语言行动计划来操纵代理。此能力在能够生成详细且高度逼真的行动计划的LLMs中也是 emergent 的,而较小的模型(如 GPT-2)则往往生成较短或毫无意义的计划。为测试这种能力,可以使用多种基于身体的AI基准进行评估,如VirtualHome、ALFRED和BEHAVIOR。现有工作要么采用基准中的常规指标(例如生成的行动计划的可执行性和正确性),要么直接进行现实世界的实验并测量成功率来评估这种能力。现有工作已经显示了LLMs在与外部环境互动和生成准确的行动计划方面的有效性。最近,已经提出了几种改进的方法来增强LLMs的交互能力,例如设计代码式提示和提供现实世界的基础。
扩展能力范围
在解决复杂问题时,LLMs可以使用外部工具。通过封装API调用可用的工具,现有工作已涉及各种外部工具,例如搜索引擎、计算器和编译器,以提高LLMs在特定任务上的性能。最近,OpenAI支持在ChatGPT中使用插件,这可以装备LLMs更广泛的能力 beyond language modeling,例如使用web浏览器插件,ChatGPT可以访问新鲜信息。为了检查工具操作能力,现有工作主要采用复杂的推理任务进行评估,例如数学问题解决或开放书籍问答,其中成功利用工具对于提高LLMs无法胜任的技能(例如数值计算)非常重要。现有工作已经发现,在工具的帮助下,LLMs变得更具处理不擅长的问题(如方程计算和使用实时信息)的能力,从而提高最终性能。
总之,LLMs的以上三种能力:符合人类价值和偏好(人类对齐)、在真实场景中表现正确(与外部环境交互)和扩展能力范围(工具操作)都对LLMs的实际表现非常有价值。此外,LLMs可能还会显示出其他与某些任务特别相关的能力(例如数据注释)或学习机制(例如自我提升),发现、衡量和评估这些新兴能力将是一个开放的方向,以更好地利用和改进LLMs。
公共基准测试和经验分析
在前面的部分中,我们已经讨论了LLMs的评估任务及其相应的设置。接下来,我们将介绍现有的LLMs评估基准和经验分析,重点是从一个总体的角度探索更全面的讨论。
评价基准
本部分介绍了用于评估LLMs的几种有代表性和广泛使用的基准测试,包括MMLU、BIG-bench和HELM。这些基准测试包括众多任务和知识领域,涵盖了语言学、数学、自然科学、社会科学等多个领域,难度不等。在这些基准测试中,LLMs的性能越大模型则表现出更强的优越性。其中,GPT-4在MMLU的5-shot设置中取得了令人瞩目的记录。BIG-bench由204个任务组成,也是一个全面综合的基准测试,包括几个领域的任务。与此同时,考虑到整个基准测试的评估成本较高,还有一种轻量级的基准测试BIG-bench-Lite,包括了24个小而有挑战性的任务。在BBH任务中,LLMs通常比人类表现更劣。还有一个名为HELM的全面基准测试,对LLMs进行了全方位和细致的评估,对提高LLMs的准确性、鲁棒性和公平性提供了指导,同时预训练对理解代码语料库的LLMs对推理任务具有显著优势。
对LLM的能力进行全面分析
上述基准测试覆盖了评估LLMs的各种主流任务。除此之外,还有一些基准测试专注于评估LLMs的特定能力,如TyDiQA用于多语言知识利用和MGSM用于多语言数学推理。为了进行评估,可以根据具体目标选择适合的基准测试。此外,还有一些开源评估框架供研究人员在现有基准测试或新的评估任务上进行评估,例如Language Model Evaluation Harness和OpenAI Evals。
除了构建大规模评估基准之外,越来越多的研究正在进行全面的分析,以研究LLMs的优点和局限性。在本部分中,我们将其主要方面进行简要讨论,即普适能力(通用容量)和专家能力(特定领域容量)。
普适能力方面,由于表现突出,现有的研究已经系统地评估了LLMs的普适能力,以探索它们在各种不同任务或应用中的能力。通常,这些研究主要关注之前尚未得到充分研究的新出现的LLMs(例如ChatGPT和GPT-4),如下所述:
-
掌握程度。为了评估LLMs在解决一般任务方面的掌握水平,现有的研究通常收集一组涵盖各种任务和领域的数据集,然后在少/零样本设置下测试LLMs。实证结果表明,LLMs在成为通用任务解决者方面具有卓越的能力。GPT-4在各种任务(例如语言理解,常识推理和数学推理)方面已经超越了最先进的基于特定测试集训练的方法,并且可以在为人类设计的实际考试中达到类似于人类的表现。虽然有着令人振奋的结果,但是LLMs仍然存在着严重的局限性。此外,它在需要计划(例如解决“汉诺塔”的问题)或概念跃迁(例如提出新的科学假设)的任务上表现较差。此外,几项研究还表明,LLMs可能会误解陌生的概念,在特定领域的信息提取任务上面临挑战,并且在解决涉及情感的实用任务时(例如个性化情感识别)表现不佳,比特定的精细调整模型差。
-
除了掌握程度,另一个需要考虑的方面是LLMs对噪声或扰动的稳健性,这对于实际应用尤为重要。为了评估LLMs对噪声或扰动的稳健性,现有的研究采用对抗攻击(例如令牌替换)对输入进行测试,然后根据输出结果的变化评估LLMs的稳健性。研究表明,在各种任务中,LLMs比小型语言模型更为稳健,但可能遇到关于稳健性的新问题,例如稳定性不稳定和提示敏感性。具体而言,LLMs往往会在使用同一输入的不同表达时提供不同的答案,甚至与其自身生成的内容相矛盾。这样的问题也会导致在使用不同提示时评估稳健性的结果不稳定,从而使稳健性分析的评估结果本身不太可靠。
专家由于LLMs已在大规模混合源语料库上进行了预训练,因此它们可以从预训练数据中获取丰富的知识。因此,最近的研究广泛探索了LLMs在解决特定领域任务和评估LLMs适应能力方面的应用。通常,这些研究收集或构建特定领域的数据集,使用上下文学习评估LLMs的性能。由于我们的重点不是覆盖所有可能的应用领域,我们简要讨论了研究社区得到广泛关注的三个代表性领域,即医疗保健、教育和法律。
-
医疗保健是与人类生命密切相关的重要应用领域。自ChatGPT问世以来,一系列研究已经将ChatGPT或其他LLMs应用于医学领域。已经表明,LLMs能够处理各种医疗保健任务,例如生物信息提取、医疗咨询和报告简化,甚至可以通过为专业医生量身定制的医学执照考试。然而,LLMs可能会制造医学错误信息,例如误解医学术语并建议与医学指南不一致的建议。此外,上传患者的健康信息也会引起隐私方面的担忧。
-
教育也是一个重要的应用领域,LLMs在其中可能产生显著影响。现有研究发现,LLMs在数学、物理、计算机科学等科目的标准化测试中,无论是多项选择还是自由回答问题,都可以达到学生水平的表现。此外,实证研究表明,LLMs可以作为教育中的写作或阅读助手。最近的一项研究表明,ChatGPT能够在跨学科问题上生成逻辑一致的答案,平衡深度和广度。另一项量化分析表明,在计算机安全领域的一些课程中,利用ChatGPT的学生表现比采用不同使用方法(例如将LLMs的结果作为自己的答案保留或精炼)的普通学生表现更好。然而,LLMs的日益普及也引起了对合理使用此类智能助手的担忧(例如作弊作业)。
-
法律是一个建立在专业领域知识基础上的专业领域。最近,许多研究已经应用LLMs来解决各种法律任务,例如法律文件分析、法律判决预测和法律文件撰写。最新的GPT-4模型在模拟司法考试中与人类考生相比获得了前10的分数。然而,在法律应用LLMs也引起了有关版权问题、个人信息泄露、偏见和歧视等法律挑战的担忧。
除了上述工作外,LLMs的能力也从其他方面进行了分析。例如,最近的一些工作研究了LLMs的人类样态特征,如自我意识、心智理论和情感计算。此外,另一条研究方向调查了现有LLMs评估设置的公平性和准确性,例如大规模混合源预训练数据可能包含测试集中的数据。
结论和未来方向
本综述回顾了大型语言模型(LLMs)的最新进展,介绍了理解和利用LLMs的关键概念、发现和技术。我们重点讨论了大型模型(即大小超过10B的模型),同时排除了已经被广泛研究的早期预训练语言模型(BERT和GPT-2)的内容。特别地,我们讨论了LLMs的四个重要方面,即预训练、适应性调整、利用和评估。对于每个方面,我们都强调了对LLMs成功的关键技术或发现。此外,我们还总结了开发LLMs的可用资源,并讨论了复现LLMs的重要实施准则。这份综述试图涵盖LLMs的最新文献,并为研究人员和工程师提供一个良好的参考资源。
在本节中,我们总结了本综述的讨论,并介绍了LLMs的挑战和未来方向,包括理论和原则。要理解LLMs的基本工作机制,一个最大的谜团是信息如何通过非常大且深的神经网络分布,组织和利用。必须揭示建立LLMs能力的基本原理或元素。尤其是,缩放似乎在增加LLMs容量方面起着重要作用。当语言模型参数规模增加到临界大小(例如10B)时,会出现一些突然的性能提升,通常包括上下文学习、遵循指令和逐步推理等 emergent abilities 是迷人但也是难以理解的。最近的研究要么进行了广泛的实验证明 emergent abilities 的影响和产生这种能力的因素 ,要么用现有的理论框架解释特定的能力 。一篇技术文章特别讨论了这个话题,以GPT系列模型为目标。然而,为了理解、表征和解释LLMs的能力或行为,更多形式化的理论和原则仍然缺失。由于 emergent abilities 与自然界的相变密切相关,跨学科的理论或原则(例如,LLMs是否可以被视为某种复杂系统)可能有助于解释和理解LLMs的行为。这些基本问题值得研究社区去探索,对于开发下一代LLMs很重要。
模型架构 由于其可扩展性和有效性,由堆叠的多头自注意力层组成的Transformer已成为构建LLMs的事实标准架构。已经提出了各种策略来改进这种架构的性能,如神经网络配置和可扩展的并行训练(详见第4.2.2节的讨论)。为了进一步增强模型的能力(例如,多回合对话能力),现有的LLMs通常会保持较长的上下文长度,例如,GPT-4-32k的上下文长度非常大,达到了32768个标记。因此,一个实践考虑是减少标准自注意力机制产生的时间复杂度(原先是二次成本)。重要的是调查更高效Transformer变体对构建LLMs的影响,例如,稀疏自注意力已经被用于GPT-3。此外,灾难性遗忘一直是神经网络的长期挑战,也会对LLMs产生负面影响。当使用新数据微调LLMs时,原始学习的知识可能受到损害,例如,根据某些特定任务微调LLMs将影响LLMs的通用能力。当LLMs与人类价值观达成一致时也会出现这种情况(称为对齐税)。因此,有必要考虑通过更灵活的机制或模块来扩展现有的架构,以有效支持数据更新和任务特化。
模型训练 在实践中,由于计算量大、对数据质量和训练技巧敏感,预训练有效的LLMs非常困难。因此,考虑到模型的有效性、效率优化和训练稳定性等因素,开发更系统、经济的预训练方法变得尤为重要。需要开发更多的模型检查或性能诊断方法(如GPT-4中的可预测扩展),以便在训练期间及早发现异常问题。此外,还需要更灵活的硬件支持或资源调度机制,以更好地组织和利用计算集群中的资源。由于从零开始预训练LLMs的代价非常昂贵,因此需要设计适当机制,根据公开可用的模型检查点(如LLaMA和Flan-T5)持续预训练或微调LLMs。为此,需要解决一系列技术问题,包括数据不一致、灾难性遗忘和任务特化。然而,迄今为止仍缺乏具有完整预处理和训练日志(例如准备预训练数据的脚本)的LLMs开源模型检查点,以实现复现。我们认为,拥有更多的开源模型对LLMs的研究将具有重要价值。此外,还需要开发更多的改进调整策略,并研究有效激发模型能力的机制。
模型利用 由于实际应用中微调非常昂贵,提示已成为使用LLMs的主要方法。通过将任务描述和演示示例组合成提示,上下文学习(提示的一种特殊形式)赋予LLMs在新任务上表现良好的能力,甚至在某些情况下超过了完全数据微调模型。为了提高复杂推理能力,提出了高级提示技术,例如以链式推理(Chain-of-Thought,CoT)策略为代表,将中间推理步骤包含在提示中。然而,现有的提示方法仍存在以下几个不足之处。首先,在提示设计中涉及相当大的人工努力。自动生成解决各种任务的有效提示将非常有用。其次,一些复杂任务(例如形式证明和数值计算)需要特定的知识或逻辑规则,这些规则可能不是用自然语言描述或通过例子演示最好的方法。因此,开发信息更加丰富、灵活的任务格式化方法对提示非常重要。第三,现有的提示策略主要集中在单轮表现上。开发交互式提示机制(例如通过自然语言交互)用于解决复杂任务是非常有用的,这已经被ChatGPT证明了。
安全与对齐性 尽管LLMs具有很强的能力,但它们也存在与小型语言模型类似的安全挑战。例如,LLMs会产生幻觉文本,即看起来合理但可能事实不正确的文本。 更糟糕的是,恶意系统可能会有意指示LLMs生成有害、偏见或有毒的文本,导致潜在的误用风险。要详细讨论LLMs的其他安全问题(例如隐私、过度依赖、虚假信息和影响操作),读者可以参考GPT-3 / 4技术报告。作为避免这些问题的主要方法,从人类反馈中进行强化学习(RLHF)已被广泛用于将人类纳入培训循环中以开发良好对齐的LLMs。为了提高模型安全性,在RLHF过程中包括与安全相关的提示也很重要,如GPT-4所示。然而,RLHF严重依赖于来自专业标注人员的高质量人类反馈数据,这使得它难以在实践中得到适当实施。因此,有必要改进RLHF框架以减少标注人员的工作量,并寻找一种更有效的注释方法,以保证数据质量。例如LLMs可用于协助标注工作。最近,红队测试已被采用来改善LLMs的模型安全性,它利用收集的对抗信息来完善LLMs(即避免来自红队测试的攻击)。此外,建立LLMs的学习机制与人类进行交流也是有意义的,通过聊天给出的反馈可以直接被LLMs用于自我改进。
应用和生态系统 LLMs展示了在解决各种任务方面的强大能力,因此可以在广泛的现实世界应用中使用(例如遵循特定的自然语言指令)。ChatGPT的推出是一项重大进步,可能改变了人们获取信息的方式,促进了New Bing的发布。预计在不久的将来,LLMs将在信息寻找技术(包括搜索引擎和推荐系统)中发挥重要影响。此外,随着LLMs技术的升级,智能信息助手的开发和使用也将得到高度推广。在更广泛的范围内,这一技术创新浪潮有助于建立LLM赋能应用程序的生态系统(例如ChatGPT的插件支持),这将与人类生活密切相关。最后,LLMs的兴起探索了人工智能的普适性(AGI)。现在可以开发比以往更智能的智能系统(可能带有多模式信号),但在这个发展过程中,AI的安全性应该是主要关注的问题,即让人工智能带来的是益处而不是威胁。
这份报告是在我们研究团队的一次讨论会议上计划的,旨在为我们的团队成员以易读性高的方式总结近期大语言模型的进展。第一版草稿于2023年3月13日完成,我们的团队成员尽力以相对客观、全面的方式包含了与LLMs相关的研究。然后,我们进行了多次广泛的写作和内容修订。然而,这份调查仍然远未完善:我们可能会遗漏重要的参考资料或主题,并可能存在不够严谨的表述或讨论。我们将不断更新此调查,尽可能提高质量。对我们来说,学习LLMs的调查写作也是一个学习过程。对于有建设性意见的读者,欢迎在我们的调查GitHub页面上留下评论,或直接给我们的作者发送电子邮件。我们将根据收到的评论或建议在未来的版本中进行相应的修订,并感谢在我们的调查中提出建设性建议的读者。