基础大模型的结构特性与发展

摘要：

基础大模型的结构特性是什么给予的？在建模部分，我们将探索基础模型背后的底层架构，并确定5个关键属性。

首先，我们从讨论计算模型的表现力开始-捕获和吸收真实世界的信息，以及可扩展性-熟练地处理大量的高维数据。这些属性已通过现有架构成功实现，例如Transformer网络，该网络是迄今为止大多数基础模型的基础。

然后，我们继续探讨是下一代模型可能必不可少的属性，包括：多模态-消费，处理和可能产生的内容从不同的来源和领域，记忆容量-有效地存储和检索所获得的知识，最后，组合性，以促进成功的推广到新的设置和环境。我们相信，实现基础大模型的全部潜力将取决于模型的进步，以满足这些需求。

正文：

在过去的几年里，新兴的基础模型范式在人工智能领域取得了令人印象深刻的成就，比如Bert闪耀在广泛的语言理解任务：从文本分类和蕴涵到问题回答和阅读理解，而GPT-3撰写了丰富而流畅的关于独角兽的故事，Dall-E展示了视觉创造力的迹象，从头开始产生惊人的逼真的鳄梨椅子图片。

这些和最近的基础模型的其他实例不仅在众多不同的下游任务和应用程序上取得了显著的性能，但也表现出值得注意的可解释性行为、稳健性，可控性和推广。模型需要做些什么才能展示出这样的品质呢？什么样的架构能够消耗大量潜在的多模式信息，并将它们转化为丰富的世界知识？总而言之，一个网络应该具备哪些可取的属性才能产生一个基础模型？

在这里，我们识别和讨论了五个这样的属性，表示力、可伸缩性、多模态、记忆容量和组合性，我们认为这些属性对于基础模型是必不可少的，以便：

(1) 从各种来源和领域提取和积累知识，

(2) 以有效和可扩展的表示形式组织知识，

(3) 灵活地将其概括为新的上下文。

对于这些特性中的每一种，我们都鼓励它们的必要性，提供结合它们的当代模型的例子，并探索未来研究和开发的关键挑战和有前途的途径。请参见图中的概览图。

图：基础模型的五个关键属性：可表示性--灵活地捕获和表示丰富的信息；可伸缩性--高效地使用大量数据；多通道--将各种形式和领域连接在一起；存储能力--存储大量积累的知识；以及组合性--概括到新的背景、任务和环境。

1 表示力

表示力与网络的理论和实践能力有关，该网络对其训练的数据分布进行建模，并以灵活的方式表示它。以前的工作已经提出了形式化的表现力度量来表征网络可以计算的函数的复杂性，或者更准确地说，近似函数的复杂性，这本质上受到网络的深度、宽度、连通性和结构模式的影响。

正如没有免费午餐定理所表明的那样，没有一个单一的模型或算法最适合所有情况，因此，为了我们的目的，我们特别感兴趣的是确定哪些模型可以有效地捕捉自然信息的各个方面，如人类语言或真实世界的图像。这些形式要么是连续的(如视觉)，要么是离散的(如语言)，具有明显的层次性和高维性，并呈现出其构成要素之间的一组复杂的关系和相互作用，无论这些要素是像素、文字还是物理对象。

事实上，最近在生成建模方面的突破为神经网络的高表达能力提供了强有力的证据，因为它们成功地表达了文本的分布，听觉，和视觉领域，并生成高保真、多样性和现实主义的样本。

1.1 归纳偏向

在过去的十年里，神经网络在自然数据建模方面的成功很大程度上归功于网络的深度，这可以粗略地通过它们所组成的堆叠的非线性层的数量，或者它们在推理链中所采取的计算步骤来衡量。大深度在增强网络的表现力方面发挥着关键作用，使它们能够形成强大的分层和分布式表示，这些表示可以从训练数据概括为新的未见示例。

万能逼近定理事实上表述即使是简单的多层感知器(MLP)也可以表示广泛的功能集，而不同的感应偏差，如在递归神经网络(RNN)或卷积神经网络(CNN)中实现的那些可以提高学习效率并增强特定网络对不同形式的信息建模的能力：前者是语言、语音和时间序列共同的顺序数据，后者是图像或视频等空间不变的信息。

1.2 Transformer网络与注意力

同时，Transformer网络，展示了捕获远程依赖项以及元素之间的成对或更高阶交互的重要性。他们建立在自我注意机制的基础上这使得计算路径更短，并提供了直接方法来比较远距离输入数据的元素(例如句子中的代词及其先行词，或引用同一主题的两个句子)。

从另一个角度来看，注意力和门控结构(如LSTM或专家混合)中体现的乘性相互作用为MLP和CNN的刚性固定权重计算提供了一种更灵活的替代方案，使计算动态适应手头的输入。事实证明，这对语言建模特别有用，例如，给出一个句子，如“她和X一起吃了冰淇淋”，虽然前馈网络总是以非常相同的方式处理它，但基于注意力的模型可以使其计算适应输入--如果介词短语(PP)附件X是“勺子”，则更新单词“ate”的上下文表示，或者如果X指的是例如“草莓”，则将其链接到“冰淇淋”。

1.3 通用计算

与现有架构相比，注意力的最后一个显着优势源于其更强的通用性，其中它与特定任务或领域没有很强的联系，就像卷积的局部感受野或递归网络的顺序假设一样，这两者分别反映了视觉和语言模态的固有特性。我们假设，注意力和转换器的通用性有助于它们广泛适用于各种研究问题和应用。

这种对比捕捉了任务专业化和表达性之间更普遍的权衡：具有更强结构先验的模型可以利用它们来提高受益于这些假设的特定任务的样本效率;而相反，整合较弱归纳偏差的模型学习得更慢，但反过来可以扩展到更大的数据量并适应不同的领域，因为它们不依赖于限制性的或特定于任务的假设。随着数据和计算变得更加容易获得，我们观察到，探索具有最小归纳偏差的模型，可以“让数据自己说话”，这似乎是该领域未来研究的一种更有前途的方法。

1.4 挑战和未来的方向

尽管神经网络总体上取得了巨大的进步和成就，特别是基础模型，但在表现力方面，仍然存在显着的挑战。领先的方法一直在努力建模极长距离的依赖关系，例如那些发生在书籍，电影甚至DNA序列中的依赖关系，这可能归因于当代基于变换的方法的二次计算。

这一挑战本质上反映了效率和表达能力之间的权衡：通过短而直接的计算路径对长距离交互进行显式建模，一方面提高了表达能力，但另一方面由于连接性的增加而导致计算的可扩展性下降。GANformer和Perceiver 等模型探索了平衡这两个属性的方法，并提出了依赖于二分注意力或瓶颈注意力的线性复杂度变换器，以提高计算效率，同时保持高表达力。我们认为，确定这两个目标之间的有效平衡为未来的研究提供了一个有趣的途径。

另一个重要的研究方向涉及基础模型的扩展，到目前为止，基础模型主要集中在语言领域，到不同的模态，如结构]和感知]，每一项都涉及一组独特的相关挑战。同样，我们相信探索推理的架构，这需要迭代计算链和符号信息的交互，构成了未来基础模型研究的一个有价值的目标。

2 可扩展性

与模型的表现力紧密相关的是可伸缩性的概念。随着来自不同来源的丰富数据变得越来越容易获得，计算资源变得越来越强大和高效，我们应该寻找方法来匹配这种进展速度，并利用它来提高人工智能的能力和多功能性。为了使基础模型有效地适应图像或文本的复杂和高维分布，它们应该在所有维度上都是可扩展的：包括模型的深度和宽度以及它们的训练时间，参数数量和它们可以处理的数据量。

2.1 优化

具体而言，基础模型应同时具备以下两个方面：

（1）易于训练，通过对数据中的噪声或缺陷具有弹性，并且对消失或爆炸梯度等不稳定性具有鲁棒性，

（2）易于适应，通过克服灾难性遗忘现象和支持少量学习。我们仍处于理解驱动学习算法可扩展性的原则的早期阶段，虽然最近的工作已经开始对这些主题有所了解，但仍有许多工作要做。

2.2 硬件兼容性

超越鲁棒性和优化方面，基础大模型还应该实际有效，并利用当代和未来的硬件[Hooker 2020]。其中一个例子是并行性，这是GPU支持的计算的一个重要特性。事实上，transformers相对于以前占主导地位的递归方法的巨大成功，很大程度上是由它们更高的并行性驱动的。展望未来，鉴于系统开发的快速进展，我们应进一步确保模型的设计能够适应未来的硬件进步。因此，理想情况下，基础模型应该服从分布式训练等方案，分布式训练越来越受欢迎，例如，混合专家，并可能利用计算或表示的稀疏性等属性，例如Longformer，BigBird 和Sparse Transformer方法，并且可能会在未来的硬件和处理器中变得更加重要。

3 多模式

传统上，计算机视觉、机器人和自然语言处理领域以独立的方式取得了进展，不同的社区开发了适合每种模式的特定方法。深度学习的兴起带来的一个有利后果是它帮助在人工智能的各个社区和研究领域之间形成了桥梁，因为看似不同的问题现在可以通过密切相关的方法来解决，并且对最初遥远的主题的研究开始融合到一个共同点。这一突破开辟了一系列新的可能性，促进了对多模态主题的开创性探索，涵盖了语言基础，视觉语义，体现环境和交互代理等不同领域。从本质上讲，多模态是智力的一个关键组成部分，是发展对世界的全面和广泛理解的关键因素。具体地说，语言学习在一个接地的环境中比在真空中更有效。相反，从视觉的角度来看，语言鼓励抽象的出现，这些抽象将低层次的感知信号和统计数据与物体，属性，代理和动机的语义概念联系起来，从而丰富和提升视觉表征。根据这些观察，我们认为基础模型应该理想地将不同的模态连接在一起，将它们的具体信息提取到共享的多方面表示中，并捕捉它们之间的全部相互连接和关系，以便提供广泛的能力（语言能力，视觉能力，机器人，推理能力）。

3.1 一般性和专业化

多模态基础模型的一个重要设计选择是专业化程度，或负责每种模态的模块之间的结构共享。自然，不同领域的数据表现出不同的结构和属性-例如，语言是离散的，而视觉是连续的。乍一看，这种差异暗示着为每种模态量身定制的专门归纳偏见可能会有所帮助。然而，随着训练规模的不断扩大，模型有机会减少对结构先验的学习，而更多地基于数据本身，事实证明，只保留少数广泛的一般假设的一般方法比特定于任务的替代方法要成功得多。因此，正如最近通用模型的成功所证实的那样，如跨不同模态的转换器-语言和视觉，我们看到通用性对于提高AI能力至关重要。

3.2 多模式互动

多模态模型的另一个关键考虑因素与权重分担有关：各种模态是否受益于对其各自组成部分使用相同或不同的参数？先前的研究已经表明，富有成效的迁移当然可以跨模态发生，但是理想的共享程度仍然不清楚，发现它的原则性方法的存在也是如此。最后，一个主要的设计问题与模型支持的多模态交互的形式有关，这在具体案例和例子之间有很大的差异：跨模态或后期融合模型，如ConVIRT 和CLIP，为每个数据源维护完全独立的编码器，并仅在最终计算阶段比较它们的空间，例如，一个简单的点积同时，早期融合模型，如ViLBERT，联合推理视觉推理和问题回答任务所需的多种模态。确定合并各个向量空间的最佳阶段和形式仍然是一个开放的研究问题。总体而言，虽然社区内部似乎对多模态的重要性达成了共识，但超越视觉和语言浅层对齐的模式尚未存在，在具体环境中进行接地语言学习的主题仍然有很大的探索空间。

4 内存

到目前为止，我们已经讨论了基础模型的目标，即在大范围内从不同的模式收集和积累信息。这种知识既包括对世界的广泛理解，也包括对特定主题或特定事实的具体掌握。呈现如此大量的学习信息绝不是微不足道的，它导致了关于特定项目或记忆的访问、存储、检索和操作的有效机制的有趣问题。

4.1 显式存储

能够实现这些期望的一个重要设计原则是将计算与存储器分开。以通过将先前获得的抽象技能应用于新的具体环境来增强模型传递知识的能力。在这种情况下，重要的是区分可以存储在外部存储器中的显性事实和通过网络的可训练权重反映的隐含知识。与通过网络权重将所有信息隐式编码在一起的替代方案相比，这种显式和隐式知识的分离具有多个优点。这种分离缓解了存储不断增长的知识所需的模型大小和参数数量的膨胀，通过增加模型的知识来源来提高模型的可信度和可靠性，最值得注意的是，它是记忆更新、操作或适应的关键，这反过来又可以使推广适用于新的背景和下游任务。

事实上，在过去的几年里，记忆和计算之间的分离一直是深度学习和NLP研究中反复出现的目标，包括记忆网络等模型，神经图灵机，神经状态机，和MAC。此外，使用键值结构访问外部存储器已被证明对于建模长期依赖关系非常有效。Transformers是迄今为止大多数基础模型的基础架构，它也展示了涉及键值内存访问和计算的操作，这些操作涉及它们逐渐构建的上下文单词表示。

4.2 信息检索

一旦模型在训练后完成信息收集，有多种方法可以检索下游应用程序和任务所需的特定事实或记忆。一些方法采用显式提示技术，通过输入序列查询模型的知识，而其他方法则涉及通过适应阶段对先验知识的隐式回忆和重塑。第三类方法更进一步，将基于神经的计算与符号聚合相结合，并从非结构化文本存储库或甚至结构化资源（如知识图）。

然而，检索机制提供的强大的记忆技能和当信息瓶颈时学到的更丰富的表征之间存在权衡。事实上，过度依赖检索减少了学习如何以紧凑和抽象的方式表示信息的机会，从模型暴露的大量输入信息中提取关键见解和概念，基本上，将小麦从谷壳中分离出来。例如，GPT-3的上下文学习能力可能是强制网络通过其有限内存架构表示输入顺序数据的副产品。总的来说，虽然它们确实有一些优点，但依赖于外部检索机制的模型可能无法像有界、紧凑和抽象表示那样有效地进行泛化。

4.3 知识操纵

最后，在考虑长时间的大规模学习时，必须注意知识的动态性质，即随着世界的不断发展，事实的正确性和有效性会随着时间的推移而变化-昨天是正确的或相关的东西明天可能就不一样了。因此，模型以支持有效更新或操纵事实的方式表示其知识是至关重要的，这是其终身学习的一部分。

5 组合性

组合性可以被定义为这样一种原则，根据这种原则，整体的意义来源于其组成部分的意义，并且应用于联合收割机的规则将它们结合起来。它是人类智力的重要组成部分，是我们从少数例子中轻松有效地进行计划，推理和学习的能力的基础。组合性可能是实现分布外--或具体地说--组合泛化的关键。借鉴符号人工智能的经典思想，它鼓励和增强神经网络中的理想属性，例如可解释性，可控性和数据效率，并且可以采取不同的形式，表征各种元素：模型。组合性可以反映在模型层面，包括其架构属性、结构和模块化程度，这可以提高大型神经模型的训练和推理效率。它还与可解释性和多模态的主题相联系，因为它涉及到模型组成的不同模块之间的接口，它们采用的交互模式以及它们的透明度。

5.1 计算

模块网络和专家混合等模型沿着这个方向走得更远，不仅表现出结构模块化，而且还表现出组合计算，由子网络的专业化支持不同的操作，以适应和定制模型行为的方式来适应手头的输入。虽然一些方法依赖于手工设计的模块的串联，但替代方法使网络专业化能够通过学习自然出现。其他模型，如MAC和动态记忆网络执行显式迭代计算，其中给定任务被分解为多个推理步骤，一个接一个地执行，表现出从一组初始事实到新的推理和结论的顺序进展。

5.2 训练和数据

不仅模型或其计算可以是组合的，数据或训练过程也可以是组合的。代替在一个完整的数据集上训练一个模型，可以将其拆分或分解为子集，在每个子集上独立地训练不同的模型，并最终通过各种集成技术在测试时重新组合它们。这种方法可能对基础模型的培训和部署程序产生深远的影响，无论是在实践方面还是在社会方面。

5.3 表示

我们已经讨论了不同元素的组合性，例如模型，计算，训练方案或数据。但最值得注意的是，在模型训练和适应过程中出现的学习表示本身也可以是合成的。事实上，表示知识的一种有前途的方式是通过结构化的、潜在的基于图的、面向对象的表示，其中心是识别实体和事件节点，并在它们之间形成连接、类比和关系边。它反映了一种自然的方式来组织关于世界的信息，其中来自不同模态的输入可以围绕语义多方面的概念进行引导和聚合。这种表示可以支持多跳推理和推断，并且还可能通过重组实现更强的分布外泛化。

然而，组合性也会阻碍表征的表现力，并阻碍其解释特质、例外和上下文相关性的能力。换句话说，整体有时可能大于其部分的总和，例如，红葡萄酒与红洋葱不同。但是，虽然在过去十年中占主导地位的许多方法往往主要集中在频谱的一端，并学习单片分布式表示，但我们认为，探索在上下文和组合性之间达到更好平衡的方式是未来研究的一个有希望的途径。