7B 开源模型突破 IMO 形式化证明，霸榜数学竞赛

总览

去年底，著名数学家、菲尔兹奖获得者陶哲轩就提出 AI 将加速数学研究，成为数学家的可靠伙伴，并且在形式化语言 Lean 的帮助下，成功证明了多项式 Freiman-Ruzsa 猜想。在今年的国际数学奥林匹克竞赛（IMO）上，谷歌Deepmind 推出的 AlphaProof 和 AlphaGeometry 2 和人类顶尖大脑同台竞技，以 28 分的惊人成绩获得银牌，和金牌仅有 1 分之差。AlphaProof 就是使用形式化语言 LEAN 进行命题的证明。形式化语言可以快速准确地验证复杂数学定理是否被正确证明，OpenAI 和 Meta 也都在 AI 辅助数学证明上进行过深入研究，是社区公认的未来 AI 辅助数学研究的一大趋势。

上海 AI 实验室书生·浦语团队在数理推理和形式化数学证明方向也有持续的研究工作，由上海 AI 实验室和香港中文大学共同研发的 7B 轻量级数学证明模型 InternLM2-Step-Prover 在形式化证明的性能和效率上都取得了显著进展。它在多个高中和大学数学竞赛数据集上达到了开源模型中的最佳性能，也显著地超过了 GPT-4。

InternLM2-Step-Prover 还成功证明了 3 道 IMO 题目，其中包括此前未被任何模型形式化证明过的 IMO 1983 第 6 题。为推动该领域的发展，我们开源了模型和训练数据，欢迎大家试用。

GitHub：https://github.com/InternLM/InternLM-Math
论文：
- https://arxiv.org/abs/2407.17227
- https://arxiv.org/abs/2406.03847

模型性能

我们对 InternLM2-Step-Prover 模型进行了全面评估，将其与业界领先的 GPT-4、ReProver 和 Deepseek-Prover 进行对比，这里选取了三个代表性的形式化数学证明数据集：

MiniF2F：244 道高中数学竞赛题，包含美国高中数学联赛，国际数学奥林匹克等不同难度
ProofNet：371 道大学课本题目，包含复分析、线性代数、拓扑等不同学科
PutnamBench：640 道来自普特南大学数学竞赛的题目，题目范围广、难度高，此数据集为 7 月新出的数据集

我们的模型在不同类的数学任务上都有卓越的表现，定理证明上显著超过了通用模型 GPT-4 和数学定理专用模型 Deepseek-Prover 和 ReProver；其中 ReProver 是由 Caltech、MIT 等高校联合研发的基于召回增强的证明模型。

整体方法

在数学自动定理证明领域，高质量训练数据的稀缺是制约模型性能的主要因素。由于极强的专业性，目前整个社区花费了数年时间共同建设，也仅有几万条可用数据。为解决数据稀缺的问题，我们开展了大规模的数据收集工作，从两个方面进行数据的收集，一方面收集高质量的人工数据；另一方面，通过自动形式化构造大规模的合成数据。

对于人工数据，我们从 GitHub 上收集了所有可编译的 Lean 源代码，并通过并行编译获得每个源代码的中间证明状态。最终，我们整理出一个包含约 3 万条数学定理和 20 万条 tactic 操作记录的数据集，其规模可与目前最大的数学定理库 Mathlib 相媲美。这个数据集不仅显著扩大了训练的数据规模，还提高了数据的多样性和代表性。

对于合成数据，我们通过训练自然语言和形式化语言的翻译器，将收集到的自然语言数学题目翻译成形式化语言。我们通过编译器过滤和反向翻译技术来确保题目翻译的正确性。在这个过程中，我们获得了 8 万多道难度不一的形式化数学竞赛题目。人工翻译这些数据的成本估算超过 10000 小时。

我们在收集到的人工数据和合成数据上进行迭代的训练。训练的过程是模型自我解题的过程，模型尝试在我们提供的所有人工数据和合成数据上进行证明，一旦发现正确证明的路线，就加入到训练数据当中进行强化学习，持续进行迭代。