【AI论文】挑战推理的边界：大型语言模型的数学基准测试

摘要：近年来，大型推理模型的迅猛发展导致现有用于评估数学推理能力的基准测试趋于饱和，这凸显出迫切需要更具挑战性和严谨性的评估框架。为填补这一空白，我们推出了OlymMATH，这是一项全新的奥林匹克级数学基准测试，旨在严格检验大型语言模型（LLMs）的复杂推理能力。OlymMATH精心挑选了200道题目，每道题目均经过人工验证，并提供中英文双语版本。这些题目被系统地划分为两个难度等级：（1）美国数学邀请赛（AIME）级别题目（较易），用于确立数学推理评估的基准线；（2）难度显著更高的题目（较难），旨在挑战当前最先进模型的极限。在我们的基准测试中，这些题目涵盖四个核心数学领域，每个领域均包含可验证的数值解，以实现基于规则的客观评估。实证结果表明，OlymMATH提出了重大挑战，即便是包括DeepSeek-R1和OpenAI的o3-mini在内的最先进模型，在较难题目子集上的准确率也明显受限。此外，该基准测试还支持对数学推理能力进行全面双语评估——这是主流数学推理基准测试中尚未充分涉及的关键维度。我们将OlymMATH基准测试发布于STILL项目：https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。Huggingface链接：Paper page，论文链接：2503.21380

研究背景和目的

研究背景

近年来，随着大型语言模型（LLMs）技术的飞速发展，它们在自然语言处理、知识问答、文本生成等多个领域展现出了强大的能力。特别是在数学推理方面，LLMs已经能够解决一些复杂的数学问题，这标志着人工智能在理解和应用数学知识方面取得了重要进展。然而，尽管取得了显著成就，当前的LLMs在解决需要高级推理能力的数学问题时仍然面临诸多挑战。

现有的数学基准测试，如GSM8K、MATH等，虽然在一定程度上推动了LLMs数学推理能力的发展，但随着模型性能的不断提升，这些基准测试已经逐渐趋于饱和。许多最先进的LLMs在这些基准测试上已经取得了接近甚至超过人类的表现，这导致评估模型的新进展变得更加困难。因此，为了持续推动LLMs数学推理能力的发展，需要引入更具挑战性和严谨性的评估框架。

研究目的

本研究旨在开发一个全新的数学基准测试——OlymMATH，以严格检验LLMs的复杂推理能力。具体而言，本研究的目的包括：

设计更具挑战性的数学基准测试：通过精心挑选和设计涵盖多个数学领域的难题，构建一个能够全面评估LLMs数学推理能力的基准测试。
推动LLMs数学推理能力的发展：通过引入OlymMATH，激励研究人员开发具有更强推理能力的LLMs，从而推动该领域的持续进步。
促进双语评估：提供中英文双语版本的基准测试，以便全面评估LLMs在不同语言环境下的数学推理能力。

研究方法

基准测试设计

问题来源与筛选：
- OlymMATH的问题主要来源于印刷版的数学杂志、教科书和官方竞赛材料，以确保问题的质量和原创性。
- 通过排除在线资源，减少数据污染的风险，确保问题的挑战性和代表性。
- 精心挑选了200道题目，涵盖代数、几何、数论和组合数学四个核心领域。
难度划分：
- 将问题划分为两个难度等级：AIME级别（较易）和奥林匹克级别（较难）。
- AIME级别问题用于确立数学推理评估的基准线，而奥林匹克级别问题则旨在挑战当前最先进模型的极限。
问题格式与验证：
- 每道题目均提供中英文双语版本，确保双语评估的可行性。
- 题目以文本形式描述，避免对图形的依赖，以便与语言模型的评估框架兼容。
- 每个问题都包含可验证的数值解，以实现基于规则的客观评估。

评估方法

模型选择：
- 选择了多种具有代表性的LLMs进行评估，包括开源模型（如DeepSeek-R1、QwQ-32B）和闭源模型（如OpenAI的o3-mini）。
评估指标：
- 采用Pass@1和Cons@10两个互补的指标来评估模型性能。
- Pass@1计算模型在所有采样响应中的平均准确率。
- Cons@10通过多数投票确定每个问题的共识答案，并计算平均准确率。
生成参数设置：
- 为每个模型设置了适当的生成参数（如温度、top_p等），以释放其推理能力。

研究结果

模型性能评估

整体表现：
- 所有测试模型在OlymMATH上的表现均相对较差，特别是在较难子集上。这表明OlymMATH提出了重大挑战，现有模型在解决这些问题时仍存在较大困难。
- 即使是最先进的模型（如DeepSeek-R1和o3-mini），在较难子集上的准确率也明显受限。
难度对比：
- 与现有基准测试（如MATH、AIME等）相比，OlymMATH的较难子集对模型提出了更高的要求。
- 模型在OlymMATH上的表现差异更大，能够更好地区分不同模型的推理能力。
双语评估：
- 模型在中英文版本上的表现存在一定差异，整体而言，模型在英文版本上的表现通常优于中文版本。
- 这表明语言对LLMs的数学推理能力有一定影响，双语评估有助于更全面地了解模型的性能。

案例分析

通过对一些挑战性问题的案例分析，我们发现模型在解决问题时常常采用经验猜测而非严谨推理的策略。尽管这种策略有时能够得出正确答案，但它缺乏必要的逻辑严谨性，容易被视为不正确的或部分正确的答案。这表明当前模型在解决复杂数学问题时仍存在推理不足的问题，需要进一步提高其推理能力。

研究局限

基准测试规模：
- 尽管OlymMATH已经包含了200道题目，但相对于庞大的数学领域来说，这一规模仍然有限。未来需要进一步扩大基准测试的规模，以更全面地评估LLMs的数学推理能力。
问题类型覆盖：
- OlymMATH主要涵盖了代数、几何、数论和组合数学四个领域的问题，但数学领域非常广泛，还包括微积分、概率论等其他重要分支。未来需要引入更多类型的问题，以更全面地评估模型的性能。
评估指标局限性：
- 当前采用的Pass@1和Cons@10指标主要关注答案的准确性，而忽略了推理过程的质量。未来需要引入更多关注推理过程的评估指标，以更全面地了解模型的性能。
模型可解释性：
- 当前LLMs通常被视为黑箱模型，其推理过程难以解释。这限制了我们对模型性能的理解和改进。未来需要研究如何提高模型的可解释性，以便更好地指导模型的开发和优化。

未来研究方向

扩大基准测试规模：
- 通过引入更多高质量的数学问题，进一步扩大OlymMATH的规模，以更全面地评估LLMs的数学推理能力。
引入更多问题类型：
- 涵盖更多数学领域和类型的问题，如微积分、概率论等，以更全面地了解模型在不同类型问题上的表现。
开发新评估指标：
- 研究和开发关注推理过程的评估指标，以更全面地评估模型的性能。这可能包括评估模型的推理步骤、逻辑严谨性等方面。
提高模型可解释性：
- 研究如何提高LLMs的可解释性，以便更好地理解其推理过程并指导模型的改进。这可能包括开发可解释性更强的模型架构、引入可视化工具等方法。
跨语言推理能力研究：
- 进一步研究LLMs在不同语言环境下的数学推理能力，探索跨语言推理的机制和方法。这可能包括开发多语言模型、研究语言对推理能力的影响等方面。