机器学习算法与Python实战 | 三万字详解！GPT-5：你需要知道的一切（下）建议收藏！

本文来源公众号“机器学习算法与Python实战”，仅用于学术分享，侵权删，干货满满。

原文链接：三万字详解！GPT-5：你需要知道的一切

作者：Alberto Romero （青稞AI整理）

原文：https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know

这篇超长的文章（部分是评论，部分是探索）是关于 GPT-5 的。我们分为上机器学习算法与Python实战 | 三万字详解！GPT-5：你需要知道的一切（上）建议收藏！和下两部分。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能（如推理和代理）。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。它讲述了所有这些事情——这就是为什么它有那么长。

第三部分：关于 GPT-5我们不知道的一切

GPT-5 和缩放定律的统治

2020 年，OpenAI 设计了一种经验形式的扩展定律[82]，自此以后，该定律定义了 AI 公司的发展路线图。主要思想是，三个因素足以定义甚至预测模型性能：模型大小、训练 token 数量以及计算/训练 FLOP（2022 年，DeepMind 将这些定律[83]和我们对如何训练计算效率高的模型的理解细化为所谓的“Chinchilla 扩展定律”，即最大的模型训练不足；您需要按与模型大小相同的比例扩展数据集大小，以充分利用可用的计算并实现性能最高的 AI）。

扩展定律（无论是 OpenAI 的原始形式还是 DeepMind 的修订版本）的底线意味着，随着预算的增长，大部分预算应该分配给扩展模型（大小、数据、计算）。（即使定律的具体内容存在争议[84]，但无论常数是什么，它们的存在在这一点上都是毋庸置疑的。）

奥尔特曼在 2023 年声称[85]，“我们正处于这些巨型模型时代的终结，我们将通过其他方式让它们变得更好。”这种方法塑造了 GPT-4（并且肯定会塑造 GPT-5），同时又不放弃规模，其中之一[86]就是使其成为专家混合模型 (MoE)，而不是像 GPT-3 和 GPT-2 那样的大型密集模型。

MoE 巧妙地将小型专业模型（专家）组合在一起，这些模型会根据输入的性质进行激活（您可以将其想象为数学专家来解决数学问题，创意专家来撰写小说等等），通过门控机制激活，该机制也是一个神经网络，可以学习将输入分配给专家。在固定预算下，与小型密集模型相比，MoE 架构可以提高性能并缩短推理时间，因为对于任何给定查询，只有一小部分专业参数处于活动状态。

Altman 关于“巨型模型时代的终结”或从密集模型到多模态模型的转变是否与缩放定律相矛盾？一点也不。如果说有什么不同的话，那就是通过利用架构优化等其他技巧，更明智地应用了缩放的经验教训（我错误地批评了OpenAI 将 GPT-4 变成了多模态模型[87]）。在生成式人工智能中，缩放仍然是王道（尤其是在语言和多模态模型中），因为它有效。你能通过在其他方面改进模型让它更好地发挥作用吗？太棒了！

在最高水平上竞争的唯一方法是用整体视角来对待人工智能创新：如果更多的计算和数据可以为你缩小性能差距，那么大量研究更好的算法是没有意义的。当更简单的架构或优化技术可以为你节省一半的钱时，在 H100 上浪费数百万美元也是没有意义的。如果将 GPT-5 放大 10 倍可行，那很好。如果将其变成超级 MoE 可行，那很好。

弗里德曼问阿尔特曼，创建 GPT-5 的主要挑战是什么（计算还是技术/算法），阿尔特曼说：“总是所有这些。”他补充说：OpenAI 真正擅长的事情是“我们将 200 个中等大小的东西组合成一个巨大的东西。”4[88]

人工智能一直是一个权衡的领域，但一旦生成式人工智能进入市场并成为一个盈利行业，就会增加更多的权衡。OpenAI 正在处理所有这些问题。目前，寻找更好路线的首选启发式方法是遵循Richard Sutton 在《苦涩的教训》中的建议[89]，这是缩放定律的非正式表述。以下是我用一句话总结 OpenAI 处理这些权衡的整体方法：坚信缩放定律，但在有希望的研究面前不要过于保守。

GPT-5 是这种整体观点的产物，因此它将充分利用缩放定律——以及任何其他东西，只要它能让 OpenAI 更接近其目标。缩放在哪些方面定义 GPT-5？我的猜测很简单：在所有方面。增加模型大小，增加训练数据集，增加计算/FLOP。让我们做一些粗略的数字。

模型大小

GPT-5 也将是一个 MoE（AI 公司现在大多出于充分的理由制作 MoE；高性能和高效推理。Llama 3 是一个有趣的例外，可能是因为它旨在（尤其是较小的版本）在本地运行，以便 GPU 贫乏者可以在有限的内存中安装它）。GPT-5 将比 GPT-4 更大（总参数数量意味着，如果 OpenAI 没有找到比 MoE 更好的架构设计，那么 GPT-5 将拥有比 GPT-4 更多的专家或更大的专家，无论哪种方式都能产生最佳的性能和效率组合；还有其他方法可以添加参数，但这对我来说最有意义）。

GPT-5 会大多少还不得而知。我们可以天真地推断出参数数量的增长趋势：GPT，2018 年（1.17 亿[90]），GPT-2，2019 年（15 亿[91]），GPT-3，2020 年（1.75 亿[92]），GPT-4，2023 年（1.8 万亿[93]，估计），但跳跃并不对应任何明确的曲线（尤其是因为 GPT-4 是 MoE，因此它不能与其他模型进行同类比较）。这种天真的推断不起作用的另一个原因是，新模型的规模取决于训练数据集的大小和可以训练它的 GPU 数量（记住我之前提到的外部限制；数据和硬件短缺）。

我找到了其他地方发布的尺寸估计（例如2-5T 参数[94]），但我认为没有足够的信息来做出准确的预测（无论如何，我已经计算过了，即使最终不是非常准确，也可以给你一些有趣的东西）。

让我们看看为什么做出明智的规模估计比听起来更难。例如，艾伦·汤普森 (Alan Thompson) 给出的上述 2-5T 数字是基于这样的假设：与 GPT-4 相比，OpenAI 对 GPT-5 使用的计算量是 GPT-4 的两倍（“10,000 → 25,000 个 NVIDIA A100 GPU 和一些 H100”），训练时间是 GPT-4 的两倍（“约 3 个月 → 约 4-6 个月”）。

GPT-5 早在 11 月就已开始训练[95]，而最后一次训练在一个月前仍在进行中，[96]因此将训练时间增加一倍是有道理的，但 GPU 数量不对。当他们开始推出 GPT-5 时，尽管 H100 GPU 短缺，但 OpenAI 仍可以使用 Microsoft Azure Cloud 的大部分计算能力，即“ [10k-40k H100 ](https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)”。因此，GPT-5 可能比 2-5T 大 3 倍（我已在下面写下了我的计算细节）。

数据集大小

Chinchilla 缩放定律表明，最大的模型训练不足，因此如果没有更多数据来提供附加参数，那么让 GPT-5 比 GPT-4 更大是没有意义的。

即使 GPT-5 的大小相似（我不会打赌这不会违反缩放定律并且在新的算法范式下可能是合理的），Chinchilla 定律表明，仅靠更多的数据也会产生更好的性能（例如，Llama 3 8B 参数模型在 15T 令牌上进行训练，严重“过度训练”，但当他们停止训练时它仍在学习）。[97]

据估计， GPT-4（1.8T 参数）已针对大约12-13[98]万亿个 token[99]进行了训练。如果我们保守地假设 GPT-5 与 GPT-4 的大小相同，那么 OpenAI 仍然可以通过向其输入多达 100 万亿个 token 来改进它——如果他们找到[100]收集这么多 token[101]的方法！如果它更大，那么他们需要那些多汁的 token。

OpenAI 的一个选择是使用 Whisper[转录 YouTube](https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html#:~:text=Transcribing YouTube)视频（他们一直违反 YouTube 的服务条款[102]）。另一个选择是合成数据，这在 AI 公司中已经是一种常见的做法[103]，一旦人造互联网数据“耗尽[104]”，这将成为常态。我相信 OpenAI 仍在压缩最后剩余的可访问数据，并寻找新方法来确保合成数据的高质量。

（他们可能找到了一种有趣的方法来实现后者，从而在不增加预训练标记数量的情况下提高性能。我在“算法突破”部分的“推理”小节中探讨了这一部分。）

计算

更多 GPU 允许在同一数据集上构建更大的模型和更多轮次，从而在两种情况下都能获得更好的性能（直到他们尚未找到某个点）。要从整个表面分析中得出一个粗略的结论，我们应该关注一件我们确信在 2022 年 8 月至 2023 年 3 月期间（GPT-4 的训练运行跨度）和现在之间发生了变化的事情：OpenAI 可以访问 Azure 的数千台 H100，随后可用 FLOP 的数量会增加，以训练下一个模型。

也许 OpenAI 还找到了一种进一步优化 MoE 架构的方法，以相同的训练/推理成本拟合更多参数，也许他们找到了一种方法，将合成的 AI 生成数据制作成高质量的 GPT-5 代币，但我们都不确定。然而，Azure 的 H100 具有我们不应忽视的某种优势。如果有一家 AI 初创公司摆脱了 GPU 短缺，那就是 OpenAI。计算是成本发挥作用的地方，但目前，只要 GPT-5 产生出色的结果（并且还不是 AGI [105]），微软就会负责这一部分。

我对 GPT-5 大小的估计

假设 OpenAI 没有像 Thompson 所说的那样使用 25k A100，而是使用了 25k H100 来训练 GPT-5（微软云为 OpenAI 保留的“ [10k-40k H100 ](https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)”的平均值）。四舍五入后，H100训练 LLM 的速度比 A100 快2[106]到4 倍[107]（成本相似）。OpenAI 可以在一个月内用这个计算量训练出一个 GPT-4 大小的模型。如果 GPT-5 需要 4-6 个月的时间，那么其大小的最终估计值为7-11T 参数（假设相同的架构和训练数据）。这是 Thompson 估计的两倍多。但是，把它做这么大是否有意义，还是最好在更多的 FLOP 上训练一个较小的模型？我们不知道；OpenAI 今年可能在架构或算法上取得了另一项突破，以在不增加规模的情况下提高性能。

现在让我们进行分析，假设推理是限制因素（Altman 在 2023 年表示，OpenAI 在训练和推理方面都受到 GPU 的限制，但他希望后者的效率提高 10 倍[108]，这表明推理成本最终将超过训练成本）。有了 25k H100，OpenAI 对 GPT-5 的最大浮点数是 GPT-4 的两倍，推理批次大小更大，并且能够以 FP8 而不是 FP16（半精度）进行推理。这意味着推理性能提高了2[109]到8 倍[110]。GPT-5 的参数可能多达10-15T ，比 GPT-4 大一个数量级（如果在推理时将模型权重分配到 GPU 上的现有并行配置[111]不会在这种规模下崩溃，但我不知道）。OpenAI 还可以选择使其效率提高一个数量级，这与更便宜是同义词（或两者的某种加权混合）。

另一种可能性是，考虑到 OpenAI不断改进 GPT-4 ，[112]我认为这种可能性值得考虑，那就是部分新可用的计算将被重新定向，以使 GPT-4 更高效 / 更便宜（甚至免费，完全取代 GPT-3.5；这是可以想象的，对吧？）。这样，OpenAI 可以从那些知道 ChatGPT 存在但不愿意付费或不知道 3.5 免费版和 4 付费版之间的差距巨大的可疑用户那里获取收入。我不会对服务价格发表更多评论（不确定 GPT-5 是否会在 ChatGPT 上使用），因为没有确切的规格，就无法判断（大小/数据/计算是一阶不确定性，但价格是二阶不确定性）。这只是商业视角的猜测：ChatGPT 的使用率并没有增长[113]，OpenAI 应该对此做点什么。5[114]

GPT-5 的算法突破

这是最有趣的部分（是的，甚至比上一节更有趣），而且，正如有趣定律所规定的那样，也是最具推测性的。从 GPT-4 推断出 GPT-5 的扩展定律是可行的，尽管有点棘手。考虑到目前该领域的不透明度，试图预测算法的进步是更大的挑战。

最好的启发式方法是关注与 OpenAI 相邻的人，潜伏在具有高 SNR 的 alpha 位置，并阅读来自顶级实验室的论文。我只做了部分这些，所以请原谅任何古怪的说法。如果你已经读到这里，你对我的谵妄已经太深了。所以谢谢你。以下是我们可以期待的提示[115]（即 OpenAI 自 GPT-4 以来一直在研究的内容）：

当然，这是奥特曼的营销，但我们可以利用这种结构化的愿景来获取宝贵的见解。6[116]这些能力中，有些更侧重于行为方面（例如推理、代理），而有些则更侧重于消费者方面（例如个性化）。所有这些都需要算法上的突破。7[117]问题是，GPT-5 会成为这一愿景的实现吗？让我们来分析一下，并做出合理的猜测。

多模态

几年前，多模态性还是一个梦想[118]。如今，它已成为必需品。所有顶级人工智能公司（无论是否对 AGI 感兴趣）都在努力让他们的模型能够捕捉和生成各种感官模态。人工智能人员喜欢认为没有必要复制使我们变得聪明的所有进化特征，但大脑的多模态性是他们无法承受的[119]。这些努力的两个例子是：GPT-4 可以获取文本和图像并生成文本、图像和音频。Gemini 1.5 可以获取文本、图像、音频和视频并生成文本和图像。

显而易见的问题是：多模态性将走向何方？GPT-5（以及下一代人工智能模型）将拥有哪些额外的感官技能？我们可能天真地认为人类有五种技能，一旦将它们整合在一起，我们就大功告成了。事实并非如此，人类实际上还有更多[120]。所有这些都是人工智能智能所必需的吗？我们应该实现动物拥有而我们没有的那些模式[121]吗？这些都是有趣的问题，但我们正在讨论 GPT-5，所以我坚持直接的可能性；OpenAI 已经暗示已经解决了这些问题。

Voice Engine[122]表明情感/人类合成音频已经相当成熟。它已经实现在 ChatGPT 中，因此它将出现在 GPT-5 中（也许不是从一开始就出现）。尚未解决但几乎最热门的领域是视频生成。OpenAI在 2 月份宣布了 Sora [123]，但并未正式发布。据The Information 报道[124]，谷歌 DeepMind 首席执行官 Demis Hassabis 表示：“谷歌可能很难赶上 OpenAI 的 Sora。”考虑到 Gemini 1.5 的功能，这并不是对谷歌在发布 AI 产品方面的限制的证实，而是对 Sora 的出色表现的认可。OpenAI 会把它放到 GPT-5 中吗？他们正在艺术家[125]和TED中测试第一印象[126]；一旦任何人都可以制作任何东西的视频，谁也说不准会发生什么。

据 The Verge 报道，Adobe Premiere Pro 将集成 AI 视频工具，其中可能包括 OpenAI Sora [127]。我敢打赌，OpenAI 会先将 Sora 作为独立模型发布，但最终会将其与 GPT-5 合并。考虑到我们已经习惯了文本模型而不是视频模型，这将是对“不震惊世界”承诺的认可。他们将逐步推出对 Sora 的访问权限，就像他们之前对 GPT-4 Vision 所做的那样，然后让 GPT-5 能够生成（和理解）视频。

机器人

Altman 并没有在“AI 能力”幻灯片中提及人形机器人或实体，但与 Figure 的合作[128]（以及你不应该相信的花哨演示[129]，即使它是真实的）说明了 OpenAI 未来在该领域的押注（请注意，多模态性不仅仅涉及眼睛和耳朵，还包括触觉和本体感觉以及运动系统，即行走和灵活性。在某种程度上，机器人技术是多模态性和代理之间的共同因素）。

我最有信心但不太为人工智能圈接受的观点[130]之一是，身体是达到人类智力水平的必要条件，无论是硅基还是碳基。我们倾向于认为智力存在于我们的大脑中，但这对我们的身体（以及他人的身体）在感知和认知中所起的关键作用是一种智力上的损害。Melanie Michell 写了一篇关于一般智力的科学评论[131]，并谈到了具体化和社会化：

许多研究生物智能的人也怀疑所谓的“认知”智能方面是否可以与其他模式分离并被无形的机器捕获。心理学家已经表明[132] ，人类智能的重要方面植根于一个人的具体身体和情感体验。证据还表明，个人智能在很大程度上依赖于一个人对社会[133] 和文化[134] 环境的参与。理解、协调和向他人学习的能力对于一个人实现目标的成功可能比个人的“优化能力”更重要。

我敢打赌，OpenAI 会重返机器人领域（我们将看到 GPT-5 在多大程度上预示着这种转变）。他们放弃它[135]不是出于哲学信念（即使公司中的某些成员仍然会说“视频生成将通过模拟一切而导致 AGI [136]”，这表明身体是不必要的），而是出于务实的考虑：没有足够的现成数据，模拟不够丰富，无法将结果推断到现实世界，现实世界的实验过于昂贵和缓慢，莫拉维克悖论[137]等。

也许他们会将工作外包给专注于机器人领域的合作伙伴，从而重返机器人领域。一台内置 GPT-5 的 Figure 02 机器人，能够进行代理行为和推理——并且能够直行——这将是一项巨大的工程壮举，值得见证。

推理

这是一个重大突破，GPT-5 可能会以前所未有的方式实现这一突破。奥尔特曼告诉弗里德曼，GPT-5 将比之前的模型更加智能，简而言之，它将具有更强的推理能力。如果说人类智能在某件事上胜过动物智能，那就是我们可以推理事物。推理，定义就是从现有知识中获取知识的能力，即通过遵循逻辑规则（如演绎或归纳）将现有知识与新信息相结合，从而更接近真相。这就是我们构建世界心理模型的方式（目前人工智能的一个热门概念），也是我们制定计划实现目标的方式。简而言之，这就是我们在周围建造奇迹的方式，我们称之为文明。

有意识的推理很难。确切地说，我们感觉很难。这是理所当然的，因为它在认知上比我们做的大多数其他事情都难；在脑海中计算四位数的乘法是只有最聪明的人才能做到的能力。如果它如此困难，那么天真的计算器如何能够立即计算出比我们知道的更大的数字呢？这可以追溯到莫拉维克悖论[138]（我刚才顺便提到过）。汉斯·莫拉维克观察到，人工智能可以非常轻松地完成对我们来说似乎很难的事情，比如高数运算，但它很难完成看起来最平凡的任务，比如直行。

但是，如果愚蠢的设备可以立即进行神级算术运算，为什么人工智能在推理解决新任务[139]或问题[140]时会比人类困难得多？为什么人工智能的泛化能力如此之差？为什么它表现出卓越的晶体智力，却表现出可怕的流体智力[141]？关于目前最先进的法学硕士（如 GPT-4 或 Claude 3）是否具有推理能力，一直存在争议。我认为有趣的数据点是，它们无法**像我们一样推理，无法具有相同的深度、可靠性、稳健性或泛化能力，而只能“以极其有限的方式”进行推理，用 Altman 的话来说。（在[142]MMLU[143]或BIG-bench[144]等“推理”基准测试中获得相当高的分数并不等同于具有像人类一样的推理能力；它可以通过记忆和模式匹配来捷径，更不用说受到数据污染的影响了。）

我们可以认为这是一个“技能问题”，或者“抽样可以证明知识的存在，但不能证明知识的缺失[145]”，这些理由都是合理且有效的原因，但不能完全解释 GPT-4 在人类可以解决的ARC 挑战等问题上的绝对[146]失败。进化可能为我们提供了不必要的推理障碍，因为它是一个无效的优化过程，但有大量经验证据表明，人工智能仍然以 Moravec 没有预测到的方式落后于我们。8[147]

以上这些都是为了向你介绍我认为是人工智能推理缺陷背后的深层技术问题。我认为最大的因素是人工智能公司过于注重模仿学习，即从互联网上获取大量人造数据，并将其输入到大型模型中，这样他们就可以像我们一样写作、像我们一样解决问题（这就是纯粹的法学硕士所做的）。其原理是，通过向人工智能输入几个世纪以来创造的人类数据，它会学会像我们一样推理，但这是行不通的。

模仿学习方法有两个重要的局限性：首先，互联网上的知识大多是显性知识（知道什么），但隐性知识（知道怎么做）无法用文字准确传达，所以我们甚至不会尝试——你在网上找到的大多是复杂迭代过程的成品（例如，你读了我的文章，但你完全不知道我必须经过数十次草稿）。（我回到代理人部分的显性-隐性区别。）

其次，模仿只是人类儿童学习工具箱中的众多工具之一。孩子们也会进行实验、反复试验和自我对弈——除了模仿之外，我们还有多种学习方式，即通过反馈循环与世界互动来更新知识，以及通过整合机制将其堆叠在现有知识之上。法学硕士缺乏这些批判性推理工具。然而，它们在人工智能领域并非闻所未闻：DeepMind 的 AlphaGo Zero就是以 100-0[148]击败AlphaGo[149]的——没有任何人类数据，只是利用深度强化学习 (RL) 和搜索的组合与自己对弈。

除了这种强大的反复试验循环机制之外，AlphaGo 和 AlphaGo Zero 都具有一项附加功能，即使是当今最好的 LLM（GPT-4、Claude 3 等）也不具备这项功能：思考下一步该做什么的能力（这是一种平凡的说法，他们使用搜索算法通过对比和整合新信息与先前知识来辨别针对目标的坏的、好的和更好的选项）。根据手头问题的复杂性分配计算能力的能力是人类一直在做的事情（DeepMind 已经测试了这种方法[150]并得到了有趣的结果）。这就是丹尼尔·卡尼曼在他畅销书《思考，快与慢》中所说的系统 2 思维。Yoshua Bengio[151]和Yann LeCun[152]曾试图赋予 AI“系统 2 思维”能力。

我相信这两个功能——自我游戏/循环/反复试验和系统 2 思维——是有前途的研究场所，可以开始缩小人工智能和人类之间的推理差距。有趣的是，拥有这些能力的人工智能的存在，比如 DeepMind 的 AlphaGo Zero——还有AlphaZero[153]和MuZero [154]（甚至没有游戏规则）——与当今最新的人工智能系统（如 GPT-4）缺乏这些能力的事实形成了鲜明对比。原因是现实世界（即使只是语言世界）比棋盘更难“解决”：不完美信息、规则和奖励定义不明确、自由度接近无限的不受约束的动作空间的游戏是最接近科学中不可能的挑战。

我相信，弥合推理游戏玩家 AI 和推理现实世界 AI 之间的差距是所有当前推理项目的目的（我相信 Gemini已经有了这方面的一些成果[155]，但我认为它还没有显示出令人满意的结果）。证据让我认为 OpenAI 一直专注于通过将搜索和 RL 的功能与 LLM 相结合来摆脱纯粹的模仿学习。这就是对 Q* 的猜测[156]所暗示的，也是来自领先研究人员的公开线索悄悄发出的呼声。也许在 OpenAI 中寻找这方面线索的关键人物是 Noam Brown，他是人工智能推理专家，于 2023 年 6 月从 Meta 加入该公司。他在公告推文中说[157]：

多年来，我一直在研究扑克和外交等游戏中的人工智能自我对弈和推理。我现在将研究如何使这些方法真正具有通用性。如果成功，我们有一天可能会看到比 GPT-4 好 1,000 倍的 LLM。2016 年，AlphaGo 击败了李世石，这是人工智能的一个里程碑。但关键在于人工智能在每一步之前“思考”约 1 分钟的能力……如果我们能发现一个通用版本，那么好处将是巨大的。是的，推理可能慢 1,000 倍且成本更高，但我们会为一种新的抗癌药物支付什么样的推理成本呢？或者为黎曼猜想的证明？

我想他只是在你了解了我上面提供的背景知识后才说出这一切。最近，在一条现已被删除的推文中，他说：“你不会通过在人类数据上进行更好的模仿学习来获得超人的表现。”

最近在红杉资本 (Sequoia) 的一次演讲[158]中，刚刚离开 OpenAI 的 Andrej Karpathy 也说了类似的话：

我认为人们还没有真正看到这个领域的可能性……我认为我们已经完成了 AlphaGo 的第一步。我们已经完成了模仿学习部分。AlphaGo 的第二步是强化学习，人们还没有做到这一点……这是真正让它发挥作用并成为超人的部分。……模型需要自我练习……它需要弄清楚什么对它有用，什么对它没用[他认为我们的教学方式不适合人工智能的心理]。

Brown 和 Karpathy 对模仿学习局限性的言论与 DeepMind 联合创始人Shane Legg[159]在 Dwarkesh Patel 的播客上所说的话相呼应，再次提到了 AlphaGo：

要获得真正的创造力，你需要搜索各种可能性，找到这些隐藏的宝藏（他指的是AlphaGo 与李世石的第二场比赛中著名的第 37 步[160]）……我认为当前的语言模型……并没有真正做到这种事情。它们实际上是在模仿数据……人类的智慧……这些都来自互联网。

因此，要超越模仿学习，你必须将其与搜索、自我对弈、强化学习等相结合。这就是人们所认为的 Q。这就是我所认为的 Q。有几篇论文介绍了如何将搜索能力引入 LLM[161]或如何在游戏中推广自我对弈[162]，但我还没有找到确凿的证据证明 OpenAI 究竟使用什么来为 GPT-5 添加推理技能。

具有推理能力的 Q*/GPT-5 会像上述情况一样令人印象深刻吗？Yann LeCun 表示，[163]我们应该“忽略关于 Q* 的大量胡说八道”，声称所有顶级人工智能实验室都在研究类似的事情（技术趋于可能，所以这是有道理的）。他指责 Altman “长期自欺欺人”，这是对Altman 在董事会闹剧中被解雇前一天关于 Q* 的言论的批评[164]：“[第四次] 当我们推开无知之幕、推进发现前沿时，我终于有机会在场了。”

但 LeCun 可能也在试图为 Meta 的工作辩护，或者他只是对 OpenAI 收购 Brown 感到不满，Brown 在 LeCun 的 FAIR 实验室创造了 Libratus（扑克）和 CICERO（外交）。（为了支持 LeCun 的警告，我们还应该注意到，Karpathy 说这还没有完成，Brown 只是暗示了他未来的工作，而不是已经存在的东西。）

就实际结果而言，考虑到我们目前掌握的有关 AI 推理的背景和证据数量， Flowers （一位半可靠的 OpenAI 泄密者）的评论表明，[165]最新的 GPT-4 turbo 版本[166]是 OpenAI 目前在这方面最先进的版本。The Information 报道称[167]，Q* 可以解决以前从未见过的数学问题，而事实上，新的 GPT-4 turbo 在数学/代码问题上改进最多（数学任务能最好地显示推理能力的早期信号）。OpenAI 选择这个低调的预览来通过 GPT-4 评估 Q* 作为以推理为中心的模型，在赋予 GPT-5 这种智能之前进行一次“不令人震惊”的中期公开发布，这也是有道理的。

我敢打赌，GPT-5 将是一个纯粹的 LLM，具有显著增强的推理能力，借鉴 Q* 类 RL 模型。9[168]除此之外，OpenAI 将继续进一步探索如何将这两条尚未完全融合的研究路线结合在一起。

个性化

我就长话短说吧。个性化就是让用户与人工智能建立更亲密的关系。用户无法将 ChatGPT 变成他们想要的定制助手。系统提示、微调、RAG 和其他技术允许用户引导聊天机器人按照他们想要的行为行事，但就人工智能对用户的了解和用户对人工智能的控制而言（以及它发送到云端以获得服务器响应的数据而言），这是不够的。如果你想让人工智能更多地了解你，你需要提供更多的数据，这反过来会降低你的隐私。这是一个关键的权衡。

如果 AI 公司不想让客户冒险采用开源技术，即使这需要付出更多努力（Llama 3 让这种转变比以往任何时候都更具吸引力），那么他们就需要找到一种让他们和客户都满意的折衷解决方案。在权力和隐私之间是否存在令人满意的中间立场？我不这么认为；如果你做大，你就去云。OpenAI 甚至没有试图让个性化成为 GPT-5 的强项。原因之一是：该模型将非常庞大且计算量很大，因此不要考虑本地处理和数据隐私（大多数企业不愿意将他们的数据发送给 OpenAI）。

除了隐私和设备处理之外，还有其他一些东西可以实现新的个性化水平（其他公司已经实现了，特别是[谷歌](https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#context-window:~:text=In our research%2C we’ve also successfully tested up to 10 million tokens)和Magic [169]，尽管只有谷歌公开发布了具有此功能的模型）：数百万个令牌上下文窗口。

从向 ChatGPT 提出两个句子的问题到能够用包含十年工作成果的 400 页 PDF 填充提示窗口，ChatGPT 可以帮助您检索其中可能隐藏的任何内容，适用性有了很大的提高。为什么以前没有这个功能？因为对如此多的输入提示进行推理的成本非常高，而且随着您添加的每一个单词，成本会以二次方的方式变得更加难以承受。这就是所谓的“二次注意力瓶颈”。然而，代码似乎已经被破解了；谷歌[170]和Meta 的新研究[171]表明，二次瓶颈已不复存在。

一旦 PDF 的长度可以无限长，Ask Your PDF 就是一款很棒的应用程序，但现在百万个标记窗口可以实现一些新东西，而十万个标记窗口则无法实现：“ Ask My Life [172]”类别的应用程序。我不确定 GPT-5 的上下文窗口大小是多少，但考虑到像 Magic 这样的年轻初创公司似乎已经通过数百万个标记窗口取得了巨大的成果——并且考虑到 Altman 明确提到个性化是必备的 AI 功能——OpenAI 至少必须匹配这个赌注。

可靠性

可靠性是怀疑论者的最爱。我认为 LLM 不可靠（例如幻觉）是人们认为生成式 AI 的价值主张不够清晰以至于无法获得报酬的主要原因之一[173]，也是增长停滞[174]和使用停滞的原因[175]，也是一些专家认为它们是一种“有趣的消遣[176]”而不是提高生产力[177]（即使可以，也并不总是很顺利[178]）的原因。这并不是每个人对 LLM 的体验，但它足够突出，以至于公司不应该否认可靠性是他们需要解决的问题（特别是如果他们希望人类使用这项技术来帮助解决高风险类别的案件）。

可靠性是任何科技产品的关键，那么为什么这些大型人工智能模型很难做到这一点呢？我发现一个有助于理解这一点的概念是，像 GPT-5 这样的东西既不是发明也不是发现。它们最好被描述为被发现的发明。即使是更接近构建现代人工智能的人（更不用说用户或投资者）也不知道如何解释输入查询并获得输出后模型内部发生的事情。（机械可解释性是一个针对这一问题的热门研究领域，但仍处于早期阶段。如果你对此感兴趣，请阅读Anthropic 的作品。）[179]

就好像 GPT-5 及其同类是先进文明遗留下来的古老设备，而我们恰好在考古硅片挖掘中偶然发现了它们。它们是我们发现的发明，现在我们正试图弄清楚它们是什么、它们如何工作，以及如何使它们的行为可解释和可预测。我们所认为的不可靠性仅仅是对文物理解不够的后续后果。这就是为什么尽管公司在客户流失和企业疑虑方面损失了数百万美元，但这个缺陷仍未得到解决。

OpenAI 正试图通过重重护栏 (RLHF)、测试和红队测试让 GPT-5 更加可靠和安全。这种方法存在缺点。如果我们接受我上面解释的观点，即人工智能无法推理是因为“抽样可以证明知识的存在，但不能证明知识的缺失[180]”，我们就可以将同样的想法应用于安全测试：抽样可以证明安全漏洞的存在，但不能证明漏洞的缺失。这意味着无论 OpenAI 进行多少测试，他们都无法确定他们的模型在越狱[181]、对抗性攻击[182]或即时注入方面是完全可靠或完全安全的[183]。

OpenAI 会改善 GPT-5 的可靠性、幻觉和外部攻击媒介吗？GPT-3 → GPT-4 的轨迹表明他们会的[184]。他们会解决这些问题吗？别指望它了。

代理

在我看来，这一部分是整篇文章中最有趣的部分。到目前为止，我所写的所有内容都以某种方式对 AI 代理（特别强调推理）很重要。最大的问题是：GPT-5 是否具有代理能力，还是会像之前的 GPT 版本一样，成为一个可以做很多事情但不能制定计划并采取行动实现目标的标准语言模型？这个问题之所以重要，是因为我将以下三个原因分解如下：首先，代理对于智能的重要性怎么强调也不为过。其次，我们知道这种代理的原始版本在某种程度上是可能的。第三，OpenAI 一直在研究 AI 代理。

许多人认为，自主性（即利用现有资源，随着时间的推移，自主推理、计划和行动以达到某个目标的能力）是法学硕士和人类级人工智能之间的缺失环节。自主性比纯粹的推理更能成为智能的标志。正如我们上面所看到的，推理是实现目标的第一步，也是任何智能代理的关键能力，但还不够。在现实世界中计划和行动（对于人工智能来说，模拟环境可以很好地作为初步近似）是所有人类都具备的技能。我们很早就开始以一种展现针对预定目标进行顺序推理的能力的方式与世界互动。起初，它是无意识的，不涉及推理（例如哭闹的幼儿），但随着我们的成长，它变成了一个复杂而有意识的过程。

解释为什么主动性是智能的必需品，而真空推理却没有多大用处的一种方法是通过显性知识和隐性知识之间的差异。让我们想象一个强大的推理能力强的人工智能，它可以被动地体验和感知世界（例如物理专家人工智能）。阅读网络上的所有书籍将使人工智能能够吸收并创建大量显性知识（知道什么），这些知识可以形式化、转移并写在纸上和书上。然而，无论人工智能在物理方面有多聪明，它仍然缺乏将所有这些公式和方程式应用于例如确保为昂贵的引力波探测实验提供资金的能力。

为什么？因为这需要了解世界的社会经济结构，并将这些知识应用于不确定的新情况和许多可变因素。这种应用概括能力超出了任何书本所能涵盖的范围。这就是隐性知识（诀窍）；只有通过实践和直接从已经知道如何做的人那里学习才能学到。10[185]底线是：如果人工智能不首先获得专门技术/隐性知识，那么无论其纯推理能力有多强，它都无法发挥有用的代理作用并实现目标。11[186]

为了获得诀窍，人类会做一些事情。但是，要以一种有助于学习和理解的方式“做”，就需要遵循行动计划，以通过反馈循环、实验、工具使用以及将所有这些与现有知识库相结合的方式实现目标（这就是 AlphaZero 所做的超越模仿学习的有针对性的推理的目的）。因此，对于代理来说，推理是一种达到目的的手段，而不是目的本身（这就是为什么它在真空中毫无用处）。推理提供了新的显性知识，然后人工智能代理可以使用这些知识来计划和行动，以获取实现复杂目标所需的隐性知识。这是智能的精髓；这是人工智能的终极形式。

这种代理智能与 GPT-4、Claude 3、Gemini 1.5 或 Llama 3 等 LLM 形成鲜明对比，这些 LLM 无法令人满意地执行计划（早期基于 LLM 的代理尝试，如BabyAGI[187]和AutoGPT[188]或失败的自主性实验[189]就是证据）。当前最好的 AI 是亚代理，或者用或多或少官方的术语来说，它们是AI 工具（Gwern 在 AI 工具与 AI 代理二分法方面有很好的资源[190]）。

那么，我们如何从 AI 工具转变为能够推理、计划和行动的 AI 代理？OpenAI 能否缩小 GPT-4（AI 工具）与 GPT-5（潜在的 AI 代理）之间的差距？要回答这个问题，我们需要回顾 OpenAI 目前对代理的关注和信念，并考虑是否有一条从那里开始的道路。特别是，OpenAI 似乎确信 LLM（或更一般的 token 预测算法 (TPA)，这是一个总体术语，包括其他模态的模型，例如 DALL-E、Sora 或语音引擎）足以实现 AI 代理。

如果我们相信 OpenAI 的立场，我们首先需要回答另一个问题：人工智能代理能否从 TPA 中诞生，从而绕过对隐性知识甚至手工推理特征的需求？12[191]

这些问题背后的原理是，一个伟大的人工智能预测器/模拟器（理论上是可能的）必须以某种方式开发出一个内部世界模型，才能做出准确的预测。这样的预测器只需深入了解世界是如何运作的，就可以绕过获取隐性知识的需要。例如，你不是从书本上学会骑自行车的，你必须骑它，但如果你能以任意高的细节水平预测接下来会发生什么，这可能足以让你在第一次骑行和所有后续骑行中都准确无误。人类做不到这一点，所以我们需要练习，但人工智能可以吗？十三[192]在介绍 AI 代理的真实示例（包括 OpenAI 正在开展的工作）之前，让我们先对此进行一些阐述。

标记预测算法 (TPA) 非常强大。它如此强大，以至于整个现代生成式人工智能都建立在这样一个前提上：足够强大的 TPA 可以发展智能。14[193]GPT-4、Claude 3、Gemini 1.5 和 Llama 3 都是 TPA。Sora 是一个 TPA（其创造者称“将通过模拟一切实现 AGI [194]”）。Voice Engine[195]和Suno[196]是 TPA。即使是像Figure 01 [197]（“视频输入，轨迹输出[198]”）和Voyager [199]（使用 GPT-4 的 AI Minecraft 玩家）这样不太可能的例子也本质上是 TPA。但纯粹的 TPA 可能并不是解决所有问题的最佳解决方案。例如，DeepMind 的AlphaGo[200]和AlphaZero[201]不是 TPA，而是我在“推理”部分中所说的强化学习、搜索和深度学习的巧妙结合。

一个智能的 AI 代理能否从像 GPT-4 一样训练的 GPT-5 中脱颖而出，成为 TPA？还是说，要让 GPT-5 成为代理，OpenAI 需要找到一个完全不同的功能来优化，甚至找到一个新的架构？（好得多的）GPT-4 最终能否发展出代理能力，还是 AI 代理需要完全不同？OpenAI 早期成功背后的科学头脑 Ilya Sutskever对 TPA 的力量毫不怀疑：[202]

…当我们训练一个大型神经网络来准确预测来自互联网的大量不同文本中的下一个单词时……我们正在学习一个世界模型……表面上看，我们只是在学习文本中的统计相关性，但事实证明，为了“仅仅学习”文本中的统计相关性，为了很好地压缩它们，神经网络学习的是生成文本的过程的一些表示。这个文本实际上是世界的投影……这就是通过准确预测下一个单词所学到的东西。

Sora 的创造者之一 Bill Peebles在最近的一次演讲中更进一步[203]：

随着我们继续扩展这一范式 [TPA]，我们认为它最终必须模拟人类的思维方式。要生成具有真正逼真的动作序列的真正逼真的视频，唯一的方法是拥有一个关于所有物体、人类等环境如何运作的内部模型。

您可能不认同这种观点，但我们可以放心地推断 Sutskever 和 Peebles 的观点，以了解 OpenAI 内部的争论除外，他们的观点是一致的。如果成功，这种方法将推翻人工智能需要捕捉隐性知识或特定推理机制来规划和行动以实现目标并变得智能的想法。也许它只是一路上的代币。

我不认同 OpenAI 的观点，原因之一是：他们没有绕过隐性知识的挑战。他们只是把它转移到了其他地方。现在的问题不是学习推理、计划和行动，而是模拟世界。他们想要解决的实际上是预知问题[204]。Peebles 对此的讨论非常随意，以至于它看起来并不重要。但是，创建一个完美的预测器 / 模拟器不是比创建一个可以在世界上计划和行动的实体更难吗？是否有可能创建一个可以模拟“真正逼真的动作序列”的人工智能，正如 Peebles 在他的演讲中所声称的那样？我不这么认为——我不认为我们可以做到这一点，而且我认为我们无论如何都无法评估这种能力。也许 OpenAI 对 Bitter Lesson 的信任和依赖太过分了（或者也许我错了，我们拭目以待）。

无论如何，如今人工智能公司的选择非常有限——尽管 Yann LeCun一直在[205]尝试[206]，但没有人知道如何构建计划/行动系统——因此，无论他们喜欢与否，他们都以 LLM 的形式使用基于转换器的 TPA（包括 OpenAI）来应对代理挑战，因为这是他们掌握的最佳技术。让我们从现有的原型开始，然后跳到我们对 OpenAI 的努力的了解。

除了我上面分享的例子（例如 BabyAGI、AutoGPT、Voyager 等）之外，还有其他基于 LLM 的代理尝试。第一个引起我注意的是 pre-ChatGPT。2022 年 9 月，Adept AI 宣布了他们所谓的 Action Transformer 的第一个版本，[207]这是一个“通过观看人们的视频来训练使用数字工具的大型变压器”。他们发布了一些演示[208]，但仅此而已。一年前，两位联合创始人离开了公司[209]，这根本不是一个好兆头（The Information 报道称[210]，Adept 正准备在夏天推出一款 AI 代理。我们拭目以待）。另一家最近加入 AI 代理淘金热的年轻初创公司是 Cognition AI，它最出名的是作为“第一位 AI 软件工程师” Devin的创造者[211]（它现在有一个开源表亲OpenDevin [212]）。一开始还算顺利，但后来，一则名为“揭穿 Devin 的真面目[213]”的评论视频曝光后迅速走红，揭露了 Cognition 对 Devin 能力的过度炒作。结果呢？Cognition 不得不公开承认，Devin 的能力不足以“通过接手繁琐的 Upwork 任务赚钱[214]”。

那些都是纯粹的软件代理。还有另一个分支，诚然，更难实现：AI 代理设备。最著名的例子是Rabbit R1[215]和Humane AI Pin。R1[216]的评论即将发布[217]，所以我们会等待它们（大约在这篇文章计划发布的同一天）。Humane AI Pin 的评论上周已经发布，它们绝对是毁灭性的。

只需知道，考虑到上述所有证据，结论是，基于 LLM 的 AI 代理尚未实现。OpenAI 能做得更好吗？

人工智能代理”变成一个“包罗万象的术语”，而不是放弃自己的雄心壮志或迎接技术挑战。OpenAI的 Ben Newhouse 表示，[218]他们正在打造“一款可能成为行业定义的从零到一的产品，利用我们即将推出的模型中最新和最优秀的技术”。我们拭目以待。

作为本节关于代理的总结，我认为 OpenAI 尚未准备好通过其最大的版本向 AI 代理迈进。还有很多工作要做。尽管 TPA 是目前唯一可能的解决方案（直到我上面描述的推理挑战得到解决），但它本身还不足以实现人们所追求的代理能力，以至于人们会考虑将它们用于严肃的项目。

我敢打赌，GPT-5 将会像我们之前见过的一样，是一个多模态法学硕士——如果你愿意的话，可以说是一个改进的 GPT-4。它周围很可能是 GPT-4 中尚不存在的系统，包括连接到 AI 代理模型以在互联网和设备上执行自主操作的能力（但这与人类般的 AI 代理的真正梦想相去甚远）。虽然多模态、推理、个性化和可靠性是系统的特征（它们都将在 GPT-5 中得到改进），但代理是一个完全不同的实体。GPT-5 不需要成为代理即可享受代理的力量。它很可能是一种原始的“AI 代理管理器”，也许是我们一致认可的第一个这样的管理器。

OpenAI 将在产品层面整合 GPT-5 和 AI 代理，以试水。他们也不会同时发布 GPT-5 和 AI 代理群（作为先例，GPT-4 和 GPT-4V 曾分离过一段时间）。我认为 OpenAI 认为代理能力比“仅仅”更好的多模态 LLM 更难控制，因此他们将更慢地推出 AI 代理。让我强调一下Newhouse的上述引言[219]，以清楚说明我为什么相信这一点：“我们正在构建……可能成为行业定义的从零到一的产品，该产品将利用我们即将推出的**模型中最新和最出色的功能 [重点是我的]。”一款利用即将推出的模型（GPT-5）中最出色功能的产品（AI 代理）。