自从 ChatGPT 向公众发布以来,法学硕士一直很热门。虽然大多数应用 AI 人员都知道如何使用 API,但可能缺乏对其“为何”起作用的数学理解。这是从数学角度全面解构一般的 LLM,特别是 Transformers。
注意:这是一个比平常更长的博客,作为一站式目的地来了解法学硕士如何工作以及为什么工作的秘诀。您可以轻松跳过您已经很好理解的部分。您可以跳过数学方程式,仍然能够理解很多东西。
在最高层次上,占主导地位的神经转导模型,例如 GPT-4 和 Google Bard,主要基于基于 Transformer 和 Attention 的编码器-解码器架构。如果您需要了解 LLM,了解 Transformers 背后的内部工作原理和数学是基础。
在 Transformer 架构中,编码器采用令牌表示序列 (x1, …, xn) 并将其转换为相应的连续表示序列 (z1, …, zn),称为上下文向量。然后解码器获取上下文向量并生成一系列输出标记 (y1, …, ym)。输入序列 N 和输出序列 M 的长度不必相同。
美妙之处在于这些标记序列可以是任何东西。例如,它们可以是:
- 构成句子的词
- 构成旋律的音乐主题
- 来自基因组的基序/等位基因
- 图像中的像素
- 股票市场的时间序列
- 药物化学结构
- 口语中的音素或语音
- 表中的数据点
- 用于控制界面的手势或脑电波。
- 购物车或购买历史记录中的项目
- 食谱或程序中的步骤
- 用于蛋白质形成的多肽生物序列
像 Transformer 和 Attent