LLM；超越记忆《第 2 部分》

一、说明

在这篇博客中，我深入研究了将大型语言模型（LLM）提升到基本记忆之上的数学框架。我们探索了动态上下文学习、连续空间插值及其生成能力，揭示了 LLM 如何理解、适应和创新超越传统机器学习模型。

LLM代表了人工智能的重大飞跃，超越了单纯的记忆模型的概念。在第 1 部分中，我介绍了 LLM 如何通过具有语言多样性的更大语料库进行泛化的复杂性。

要详细了解 LLM 的工作原理，您可以在此处找到全面的博客： GPT 背后的巫术

数学描述：记忆模型可以使用高级形式的有限状态自动机（FSA）表示，该模型可以使用复杂的转移矩阵进行数学建模：

在这个公式中，Aij（x）是状态转移矩阵的元素，捕获转移概率或规则，而 Sj 是表示自动机中不同状态的状态向量。

固定关系：张量乘积⊗表示状态和输入之间固定的、预先确定的关系。这种刚性与LLM的适应性形成鲜明对比。在语言特征的上下文中，这意味着自动机只能识别和响应它已被明确编程为处理的输入模式。

适应性的局限性：与LLM不同，这些记忆模型缺乏超越其编程状态转换的泛化能力，这使得它们不太擅长处理新颖或看不见的输入模式。

数学基础：LLM，尤其是那些建立在 Transformer 架构上的 LLM，利用了由注意力机制增强的序列到序列模型。这种注意力机制的数学表示如下：

此处，Q、K 和 V 表示从输入数据派生的查询、键和值矩阵。softmax 函数应用于查询和键的缩放点积，确定输出中每个值的权重。

上下文适应：比例因子 dk 对点积进行归一化，以避免由于高维数而导致的超大值。这种归一化在稳定跨层梯度流动方面起着至关重要的作用。

层深度：Transformer 架构中的每一层都应用这种注意力机制，使模型能够对输入序列形成复杂的分层理解。这种多层方法使 LLM 能够捕获数据中细微的关系和依赖关系。

代数表示：在记忆模型中，可以使用代数结构来表述离散映射：

这里，⋁ 表示逻辑 OR 运算，∧ 表示逻辑 AND 运算。每个 yi 都是模型旨在识别的特定模式或状态。

这种表示反映了二进制和确定性映射，其中输出严格由某些输入模式的存在与否来定义。

代数公式的局限性：此类模型受到限制，因为它们无法在显式定义的映射之外进行插值或泛化。该结构是刚性的，这意味着它缺乏灵活性，无法适应与预定义模式不完全匹配的输入。

高维向量空间：基于神经网络的LLM在连续的高维向量空间中运行：

在此公式中，hi 表示上下文中单词或标记的嵌入表示形式。α_ij是注意力权重，W是权重矩阵，E_xj表示第j个标记的嵌入，b是偏置项。

ReLU（整流线性单元）函数引入了非线性，使模型能够捕获数据中的复杂模式。

注意力机制和情境理解：

灵活性和泛化：与记忆模型相比，LLM 表现出显着的灵活性和泛化能力。LLM操作的连续空间允许在含义和上下文中产生细微的变化和渐变，这在记忆模型的离散框架中是不可能的。
处理新输入：LLM 擅长处理新输入，根据学习模式进行推理，而不是依赖精确匹配。这与僵化的、基于规则的记忆模型方法形成鲜明对比。
复杂模式识别：LLM 中使用的高维向量空间和非线性函数使它们能够捕获和生成复杂的语言模式，由于其二进制和固定性质，这一特征在记忆模型中受到限制。