【GPT4】微软 GPT-4 测试报告（4）GPT4 的数学能力

**欢迎关注【youcans的AGI学习笔记】原创作品
微软 GPT-4 测试报告（1）总体介绍
微软 GPT-4 测试报告（2）多模态与跨学科能力
微软 GPT-4 测试报告（3）编程能力
微软 GPT-4 测试报告（4）数学能力
微软 GPT-4 测试报告（5）与外界环境的交互能力
微软 GPT-4 测试报告（6）与人类的交互能力
微软 GPT-4 测试报告（7）判别能力
微软 GPT-4 测试报告（8）局限性与社会影响
微软 GPT-4 测试报告（9）结论与展望

【GPT4】微软 GPT-4 测试报告（4）数学能力

- 4. 数学能力（Mathematical abilities）
- - 4.1 与 GPT4 的数学对话（A mathematical conversation with GPT-4）
  - - 4.1.1 对原问题做第一次变化
    - 4.1.2 对原问题做第二种变化
    - 4.1.3 对话的局限性分析
  - 4.2 在数学问题集上的表现（Performance on mathematical problem datasets）
  - 4.3 不同领域的数学建模（Mathematical modeling in various domains）
  - 4.4 高等数学（Higher level mathematics）

微软研究院最新发布的论文「人工智能的火花：GPT-4 的早期实验」，公布了对 GPT-4 进行的全面测试，结论是：GPT-4 可以被视为通用人工智能（AGI）的早期版本。

本文介绍第 4 部分：GPT4 的数学能力。

4. 数学能力（Mathematical abilities）

在本节中，我们评估 GPT-4 在面对需要数学思维和模型构建的问题时，表达数学概念、解决数学问题和应用定量推理的能力。

我们的测试证明，与之前的 LLM 相比，GPT-4 也代表了在该领域的飞跃，即使与专门为像 Minerva这样的数学模型进行微调的情况相比也是如此。但是，无论如何，GPT-4 仍然离专家的水平相当远，没有进行数学研究所需的能力。

需要提醒读者注意，正确解读本节的结果是一项困难的练习。正如我们将看到的，GPT-4可以回答困难的(实际上是竞争性的)高中水平的数学问题，有时还可以围绕高等数学话题进行有意义的对话。然而，它也会犯非常基本的错误，偶尔会产生语无伦次的输出，这可能被解释为缺乏真正的理解。它的数学知识和能力可能以一种看似随意的方式依赖于上下文。

虽然用评估人类能力的标准(例如，解决标准考试问题)来评估GPT-4的数学能力很诱人，但鉴于上述情况，这将无法提供模型能力的完整图景。为了真正了解模型的能力，我们将需要将“数学能力”分解为各种组件，并评估GPT-4在每个领域的表现。在本节中，我们将使用具体的例子和讨论来说明模型的优势和劣势，并试图找出这些差异可能存在的潜在原因。

为了让读者对GPT-4在数学问题解决方面的表现有一个第一印象，可以考虑图4.14中的例子。

在这里插入图片描述

上图4.1 是 GPT-4 与 ChatGPT 在一个简单数学问题上的对比。例子中的问题是作者自己写的，而不是从网上获取的，以确保模型不太可能从学习数据中“记住”答案。

要解决上述问题，首先需要给出年度人口变化的正确表达式，用它来获得一个递归关系从而得到一个方程组，最后解出两个方程组。GPT-4成功地到达了解决方案，并产生了一个(大部分5)可靠的论点。相比之下，在几次独立的尝试中，ChatGPT始终未能实现上述任何步骤，产生了一个无意义的论点，导致了错误的答案。

4.1 与 GPT4 的数学对话（A mathematical conversation with GPT-4）

我们现在试图通过讨论的形式对这个问题提出几个后续问题来进一步探索模型的理解。这次讨论将突出该模型的一些局限性以及与人类的一些关键差异。

在这里插入图片描述

GPT-4抓住了问题的关键，并提供了对问题的可靠的数学重构。接下来，我们考虑对同一个问题的泛化。

4.1.1 对原问题做第一次变化

在这里插入图片描述

模型选择了使用归纳法的正确启发式，然而，似乎模型遗漏了问题的要点：在修改后的问题中， c 和d的值是规定的，因此量词是不正确的。我们试着指出这一点。

在这里插入图片描述

最后一个答案并不准确(“只有”这个词显得不合适)，但GPT-4似乎确实理解了问题所在。

在这里插入图片描述

在这一点上，GPT-4似乎并没有遵循自己的推理。因此，归纳论证是无效的，如下所述。

在这里插入图片描述

该模型重复上述相同的概念错误(再一次，即使a和b的选择已经固定，但它们被视为变量，其值仍然可以被选择)。不受干扰，它继续进行争论，没有取得任何进展。
几次继续这个对话的尝试都以失败告终，因为GPT-4有效地不断尝试相同(无效)归纳论点的不同变体。另一方面，在讨论6的前面部分，对原始问题的不同(但等效)表述，偶尔会导致正确的推理路线(取决于确切的措辞)。

4.1.2 对原问题做第二种变化

接下来，我们尝试将原问题修改为另一个方向，询问关于高次多项式的情况。

在这里插入图片描述

这时，GPT-4输出了一个非常长的计算，犯了几个错误，并没有得出正确的答案(即在这种情况下没有解)。于是，我们中断它，更抽象地建议更高阶的k。

在这里插入图片描述

这是一个可靠的论证。我们现在接着问另一个问题:

在这里插入图片描述

这当然是错误的，因为指数函数和对数函数的类别并不具有所期望的性质(它们在复合下不是闭合的)。接下来，我们检查GPT-4是否能够意识到并纠正它的错误。

在这里插入图片描述

这种讨论似乎再次把GPT-4推向了一个死胡同，它开始自相矛盾，并且随着对话的继续产生越来越不连贯的论点。

总结：人们可能会推测，GPT-4 只是缺乏有关指数函数行为的相关知识。然而，情况似乎并非如此，因为该模型可以正确地回答和证明 “a^{bc} = (a^b)^c 是真的吗?” 。

这表明，与其他领域一样，GPT- 4的数学知识是上下文相关的。虽然这并不意味着GPT-4只记忆常用的数学句子，并执行简单的模式匹配来决定使用哪一个(例如，交替使用名字/数字等通常不会影响GPT-4的答案质量)，但我们确实看到，问题措辞的变化可以改变模型显示的知识。

4.1.3 对话的局限性分析

上述对话突出了模型在任务和问题上的表现，一方面需要显著水平的数学复杂性，另一方面它的基本数学错误和无效陈述之间的鲜明对比。如果人类要产生后者，我们会怀疑他们的理解能力。可以说，这种对比对于人类来说是非典型的。

因此，我们面临着一个具有挑战性的问题：模型在多大程度上展示了数学上的“真正理解”?

这个问题并没有很好的定义。尽管如此，我们还是尝试着去回答这个问题。

我们首先想论证的是，数学理解有几个方面:

创造性推理：识别每个阶段哪些论据、中间步骤、计算或代数操作可能相关的能力，以便绘制出通往解决方案的路径。这一组成部分通常基于启发式猜测(或在人类的情况下，直觉)，通常被认为是数学解决问题中最实质性和最深刻的方面。
技术熟练：能够按照规定的一组步骤进行常规计算或操作(例如微分一个函数或在一个方程中隔离一个项)。
批判性推理：批判性地检查论证的每一步，把它分解成子部分，解释它需要什么，它与论证的其他部分有什么关系，以及为什么它是正确的。当解决一个问题或产生一个数学论证时，这通常与当意识到某个步骤是不正确的时回溯并相应地修改论证的能力结合在一起。

我们现在想要分析模型在这些数学理解方面的每一个方面的表现，并讨论一些可能的原因来解释它的优点和缺点。

创造性的推理：

当涉及到高中水平的高级问题(偶尔更高水平)时，该模型在选择正确的论点或路径以获得解决方案方面表现出了高水平的能力。

为了将这一点与上面的例子联系起来，模型正确地选择了在原问题中尝试并写出递归关系，并在后续问题中讨论多项式的复合次数。在这两种情况下，建议都是在“知道”这条路径是否会导致正确的解决方案之前提出的。

4.2节和附录D包含了更多的例子，展示了模型在这方面的能力，我们将其与一个优秀的高中生甚至更高的学生进行比较。

技术熟练程度：

虽然该模型清楚地展示了对与不同程序(如求解方程组)相关的算法的高度知识，但它在执行这些任务时也会非常频繁地犯错误，例如犯算术错误、混淆运算顺序或使用不正确的符号。

我们在附录D.1中进一步讨论了这些典型错误的一些例子。我们推测，这方面可以通过给予模型代码执行权限来改进，这将允许它更准确地执行计算或检查等效性;在附录D中提供了一些证据。

批判性推理：

该模型在第三方面表现出显著的不足，即批判性地检查论证的每一步。

这可以归结为两个因素。首先，模型的训练数据主要由问题及其解决方案组成，但它并没有捕捉到表达导致解决数学问题的思维过程的措辞，在这个过程中，一个人进行猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯等。换句话说，由于训练数据本质上是对解决方案的线性阐述，在这些数据上训练的模型没有动机进行“内在对话”，即重新审视和批判性地评估自己的建议和计算。其次，尝试事物和回溯的局限性是模型所运行的下一个单词预测范式所固有的。它只生成下一个单词，没有修正或修改之前输出的机制，这使得它产生的论据是“线性的”。因此，简单地说，我们可以将该模型的缺点视为“天真”的注意力错误与作为下一个token预测机的“线性思维”造成的更基本限制的组合。

一个重要的问题是，上述哪些问题可以通过进一步的训练(可能使用更大的模型)来缓解。对于前一个问题，我们认为进一步的训练可以缓解这个问题，正如超人的编码能力所证明的那样，这种注意力错误也将是致命的;一个关键的区别是，GPT-4很可能是在比数学数据多得多的代码上进行训练的。我们认为后者构成了一个更深刻的限制。我们将在第8节对此进行更详细的讨论。

在其余部分，我们评估了该模型在数学问题解决常用基准上的能力，并演示了该模型在现实世界场景中应用定量思维的能力。我们还比较了GPT-4和ChatGPT在两个基准和其他数学问题上的表现(更多示例见附录D)，粗略地说，我们发现GPT-4比ChatGPT有了显著的提升：GPT-4显示了对问题的更深入的理解，并能够在许多复杂问题上应用适当的推理。

ChatGPT经常求助于低级的启发式方法，提到的公式和概念只是表面上与问题相关，指向了缺乏实际理解。我们以几个例子来结束这一节，这些例子展示了在更高层次的数学上的能力。

4.2 在数学问题集上的表现（Performance on mathematical problem datasets）

我们现在进行系统实验，比较GPT-4、ChatGPT和Minerva（解决数学问题的最先进的 LLM）在两个常用作为基准的数学数据集上的性能:GSM8K和math。GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和应用题等主题的问题和答案。MATH是一个高中数学数据集，包含12500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试了该模型，该数据集包含了大约2000个多项选择(4个选择)问题，涵盖了高中和大学的STEM主题。这些数据集突出了GPT-4使用正确方法解决高中水平数学问题的能力。

**重要声明：**如引言中所述，我们的实验是在GPT-4的早期版本上运行的。在GPT-4的最终版本上，总体趋势保持不变，但所有定量结果将有所不同。
**减少过拟合：**使用基准来评估 LLM 的推理能力的一个潜在问题是，他们可能在预训练期间记住了基准数据集的问题或答案，因为这些问题可能是数据集的一部分。为了减少这种形式的过拟合的可能性，我们采取了以下策略:

在基准测试中，我们通过要求GPT-4：(1)为问题的解决方案编写一个模板来测试它，(2)先写下步骤，然后写下最终答案。模板不在网上，MMMLU-STEM等数据集的详细解决方案也不在网上(只有答案是)。
我们从GPT-4正确解决而text- davincian -003错误解决的数据集中选取了一个具有代表性的问题。我们修改了问题中的数字，看到GPT-4始终正确，text- davincian -003始终错误。
我们还精心设计了几个新问题，仔细检查这些问题或相近的变体是否出现在网上。似乎GPT-4在这些问题上表现出了相同的性能。

在这里插入图片描述

图4-2测试 GPT-4 是否能准确记住原始问题的表述的一种方法是，改变输入中的 x 和 p(1)的值。我们从集合{−10, −9,···,−2} 中随机选择 x 的三个值∪{2,3 ,···, 10} 和集合 {−10, −9, ···, −1} 中随机选择 p(1) 的一个值 ∪{1, 2, ···, 10}，并用它们来构造新的输入。我们比较了GPT-4 和 text-davincian-003 在这些输入上的准确率。结果显示，GPT-4 达到了 75.2%的准确率，而text-davincian-003 的准确率仅为0.2%。

这表明，GPT-4 并不依赖于记忆准确的问题陈述，而是依赖于应用一种通用的解决方法。虽然有可能 GPT-4 会记住解决方案模板，但这并不一定是一个缺陷，因为这也是人类解决数学问题的一种常见方式。

对于基准数据集，我们评估了模型的单一模型精度，即它们一次回答正确的问题的百分比。不同模型在数学数据集上的准确率如下表所示:

Model	GSM8K	MATH	MMMLU-STEM
text-davincian-003	61.3%	23.5%	54.2%
Minerva	58.8%	33.6%	63.9%
GPT-4	87.1%	42.5%	82.7%

与其他模型相比，GPT-4的准确率略有提高。人工检查GPT-4在数学上的答案后发现，GPT-4 的错误主要是算术和计算错误：该模型在管理大数或复杂表达式时表现出很大的不足。相比之下，在大多数情况下，ChatGPT 产生的论点是不连贯的，并导致了与问题的解决方案一开始就无关的计算。图4.3给出了一个例子，说明了这种差异。我们在附录D.1中进一步讨论了计算误差的问题。

错误类型	错误占比
算术错误（计算错误）	68%
对问题的理解错误	10%
解决问题的方法错误	22%

例如在下图中的 AP问题上，GPT-4 使用了正确的方法，但由于计算错误产生了错误的最终答案。而 ChatGPT 产生了语无伦次的论点。

在这里插入图片描述

4.3 不同领域的数学建模（Mathematical modeling in various domains）

数学推理不仅仅是一种解决数学习题和问题的技能，它也是理解和交流各种背景和情况的工具。

在本节中，我们评估了GPT-4使用数学思想和技术解决现实问题的能力，其中一些是不严格的数学，但需要量化思维。

我们在下面展示了GPT-4是如何成功地为一个需要广泛跨学科知识的复杂系统建立一个合理的数学模型，而ChatGPT 却未能取得有意义的进展。

在这里插入图片描述

如图所示，GPT-4建立了一个数学模型，用于分析职业《星际争霸2》玩家在一场比赛中随时间变化的能量率。

费米问题

一种特殊的数学建模问题是费米问题。费米问题涉及利用逻辑、近似和数量级推理，对难以或不可能直接测量的量或现象进行有根据的猜测。

例如，一些著名的费米问题是:“芝加哥有多少钢琴调音师?“和“太阳在到达地球的过程中，其峰值颜色的电场振荡了多少次?” 要在很少或没有额外信息的情况下解决这些问题，需要量化思维和一般知识。

在这里，我们展示了 GPT-4 用量化思维回答费米问题的杰出能力。我们在图4.5中展示了两个例子，
问题一是：”请粗略估计一下每天有多少个费米问题被问到?“，问题二是”请粗略估计一下地球上总共有多少张Nvidia A100 显卡。“。

GPT-4通过层层合理的假设和有根据的猜测来尝试它们，而 ChatGPT 则立即承认失败，几乎没有显示出数学思维的痕迹。尽管GPT-4 的最终答案很可能会很遥远，但它在这些问题上展示了一个令人深刻的印象。

问题一：请粗略估计一下每天有多少个费米问题被问到？
GPT-4：
关于每天有多少个费米问题被问到，目前还没有明确的答案，但解决这个问题的一种可能方法是根据现有数据做一些假设，并使用一些估计。这里有一个可能的例子:
— 假设费米问题是一个需要对某些不易测量或已知的数量或现象进行数量级估计的问题，比如芝加哥钢琴调音师的数量、埃菲尔铁塔的质量、或者密歇根湖的水量。
— 假设提出费米问题的人更有可能是对科学、数学、工程或逻辑感兴趣的人，或者是从事涉及此类主题的某种教育、研究或解决问题的人。
— 假设世界人口约78亿，其中约25%的人年龄在15 - 64岁之间，这大致是劳动年龄人口。这就给出了大约19.5亿潜在的费米问题提问者。
— 假设劳动年龄人口的平均识字率约为86%，识字率是提出或回答费米问题的先决条件。这样就有了大约16.8亿有文化的潜在费米问题提问者。
— 假设在有文化潜质的费米问题提问者中，科学、数学、工程或逻辑的平均利率约为10%，这个利率是提出或回答费米问题的可能性的一个代理。
这就给出了大约1.68亿感兴趣的潜在费米问题提问者。
— 假设在感兴趣的潜在费米问题提问者中，询问或回答费米问题的平均频率约为每月一次，并且这个频率与一周中的星期几、一天中的时间或一年中的季节无关。这样每天就会有大约560万个费米问题被提出或回答。
因此，基于这些假设和估计，每天被问到多少个费米问题的粗略答案大约是560万个。然而，这个答案有很多不确定性和变化，取决于假设和估计的有效性和准确性，以及构成费米问题的定义和范围。

ChatGPT:
每天问费米问题的数量很难准确估计。然而，根据这类问题经常被问到的网站(如论坛、问答网站等)的每日活跃用户的估计数量，人们可以粗略估计每天被问到的费米问题的数量。例如，如果一个网站有100万活跃用户，每个用户每天问1个费米问题，那么该网站每天被问费米问题的数量将为100万个。然而，这只是一个粗略的估计，实际的数字可能更高或更低。

问题一：请粗略估计一下地球上总共有多少张Nvidia A100 显卡。
GPT-4：
关于地球上总共有多少个Nvidia A100并没有明确的答案，但解决这个问题的一种可能的方法是使用一些可用的数据和假设来做一个粗略的估计。以下是一些可能的步骤和来源:
— 根据Nvidia的网站上说，A100有各种各样的外形，比如PCIe卡、SXM4模块、HGX A100系统和云实例。每个外形因子可能每个单元有不同数量的A100 gpu，从1个到16个不等。为了简单起见，我们可以假设所有形状因子平均每个单元有4个A100 gpu。
— 根据英伟达2021年第四季度的财报电话会议记录，该公司报告称，其数据中心部门(包括A100和其他产品)的收入达到了创纪录的29.1亿美元。假设A100在这一细分市场中占据了相当大的份额，我们可以估计2021年第四季度A100的营收约为20亿美元。
— 根据英伟达官网显示，A100 PCIe卡的标价为11000美元，HGX A100 4-GPU系统的标价为69000美元。假设这些价格代表了A100在所有外形因素下的平均销售价格，我们可以估计一个拥有4块A100 gpu的单元的平均销售价格约为2万美元。
— 用估计的A100营收除以估计的平均售价，我们可以估计，英伟达在2021年第四季度销售了大约10万部A100 gpu，每台4块A100 gpu，总共大约40万张A100 gpu。
— 假设2021年Q4是A100销售的典型季度，而A100是在2020年年中推出的，我们可以估计，英伟达在2020年和2021年各销售了4块A100 gpu约80万张，总共约320万张A100 gpu。
— 加上误差幅度，考虑到价格、销量、形状因素和发布日期可能出现的变化，我们可以估计到，截至2022年初，地球上A100 gpu的数量在250万到400万之间。
当然，这个估计是建立在许多假设和不确定性的基础上的，不应该被认为是一个确定或权威的答案。有可能是英伟达售出的A100 gpu比估计的多或少，也有可能是一些A100 gpu已经退役、损坏或丢失。因此，地球上实际的A100 gpu数量可能会高于或低于预估。

ChatGPT：
由于Nvidia公司没有公开披露销售数据，目前无法确定地球上Nvidia A100 gpu的确切数量。不过，截至2021年，全球使用的Nvidia A100 gpu估计有几十万块。

在这里插入图片描述

4.4 高等数学（Higher level mathematics）

我们用几个例子来总结这一节，这些例子展示了该模型在更高级数学主题上的潜在性能。这些例子是有意选择来展示模型的能力的，需要注意的是，对于这种难度级别的问题，模型并不总是成功。相反，它们是为了展示模型能力的程度，暗示未来的模型可能能够实现什么。

我们从一个出现在2022年国际数学奥林匹克(IMO)上的问题的简化开始。

在这里插入图片描述

这个问题与那些通常出现在STEM科目的本科微积分考试中的问题的区别在于，它不符合一个结构化的模板。解决它需要一种更有创造性的方法，因为没有明确的策略来开始证明。例如，将论证分成两种情况(g(x) > x和g(x2) < x)的决2定并不是一个明显的决定，y的选择∗也不是(它的原因只有在后面的论证中才会变得清晰)。此外，这个解决方案需要本科水平的微积分知识。尽管如此，GPT-4还是成功地给出了正确的证明。

第二个例子是讨论的形式，涉及算法和图论，这些主题通常涵盖在本科计算机科学学位的第一年或第二年。这种讨论可以与研究生水平的面试相媲美。

在这里插入图片描述

GPT-4展示了对图论和算法概念的理解。它能够推理一个抽象的图构造，这涉及到一个约束满足问题，并推导出关于SAT问题的正确结论(据我们所知，这种构造没有出现在数学文献中)。对话反映了对所讨论的本科水平的数学概念的深刻理解，以及显著程度的创造力。虽然GPT-4在一个例子中犯了一个错误(写2n/2n−1而不是2)，但随后的对话表明，这个错误并不反映缺乏理解。相反，GPT-4似乎在某种程度上犯了一个类似于人类的拼写错误，因为它后来提供了公式的正确泛化。

我们最后一个例子需要掌握一个新的数学定义，并结合数论和概率论的知识。该模型产生了一个可靠的论点，但在最后出现了一个计数错误，导致了一个不正确的最终答案。

在这里插入图片描述

【本节完，以下章节内容待续】

与世界交互
与人类交互
判别力
GPT4 的局限性
社会影响
结论与对未来展望

youcans@xupt 作品，转载必须标注原文链接：
【微软对 GPT-4 的全面测试报告（4）GPT4 的数学能力】：https://blog.csdn.net/youcans/category_12244543.html
本文使用了 GPT 辅助进行翻译，作者进行了全面和认真的修正。
Copyright 2022 youcans, XUPT
Crated：2023-3-30

参考资料：

【GPT-4 微软研究报告】：
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址：https://arxiv.org/pdf/2303.12712.pdf