7B 开源模型突破 IMO 形式化证明,霸榜数学竞赛

总览

去年底,著名数学家、菲尔兹奖获得者陶哲轩就提出 AI 将加速数学研究,成为数学家的可靠伙伴,并且在形式化语言 Lean 的帮助下,成功证明了多项式 Freiman-Ruzsa 猜想。在今年的国际数学奥林匹克竞赛(IMO)上,谷歌Deepmind 推出的 AlphaProof 和 AlphaGeometry 2 和人类顶尖大脑同台竞技,以 28 分的惊人成绩获得银牌,和金牌仅有 1 分之差。AlphaProof 就是使用形式化语言 LEAN 进行命题的证明。形式化语言可以快速准确地验证复杂数学定理是否被正确证明,OpenAI 和 Meta 也都在 AI 辅助数学证明上进行过深入研究,是社区公认的未来 AI 辅助数学研究的一大趋势。

上海 AI 实验室书生·浦语团队在数理推理和形式化数学证明方向也有持续的研究工作,由上海 AI 实验室和香港中文大学共同研发的 7B 轻量级数学证明模型 InternLM2-Step-Prover 在形式化证明的性能和效率上都取得了显著进展。它在多个高中和大学数学竞赛数据集上达到了开源模型中的最佳性能,也显著地超过了 GPT-4。

InternLM2-Step-Prover 还成功证明了 3 道 IMO 题目,其中包括此前未被任何模型形式化证明过的 IMO 1983 第 6 题。为推动该领域的发展,我们开源了模型和训练数据,欢迎大家试用。

  • GitHub:https://github.com/InternLM/InternLM-Math

  • 论文:

    • https://arxiv.org/abs/2407.17227

    • https://arxiv.org/abs/2406.03847

模型性能

我们对 InternLM2-Step-Prover 模型进行了全面评估,将其与业界领先的 GPT-4、ReProver 和 Deepseek-Prover 进行对比,这里选取了三个代表性的形式化数学证明数据集:

  • MiniF2F:244 道高中数学竞赛题,包含美国高中数学联赛,国际数学奥林匹克等不同难度

  • ProofNet:371 道大学课本题目,包含复分析、线性代数、拓扑等不同学科

  • PutnamBench:640 道来自普特南大学数学竞赛的题目,题目范围广、难度高,此数据集为 7 月新出的数据集

我们的模型在不同类的数学任务上都有卓越的表现,定理证明上显著超过了通用模型 GPT-4 和数学定理专用模型 Deepseek-Prover 和 ReProver;其中 ReProver 是由 Caltech、MIT 等高校联合研发的基于召回增强的证明模型。

整体方法

在数学自动定理证明领域,高质量训练数据的稀缺是制约模型性能的主要因素。由于极强的专业性,目前整个社区花费了数年时间共同建设,也仅有几万条可用数据。为解决数据稀缺的问题,我们开展了大规模的数据收集工作,从两个方面进行数据的收集,一方面收集高质量的人工数据;另一方面,通过自动形式化构造大规模的合成数据

对于人工数据,我们从 GitHub 上收集了所有可编译的 Lean 源代码,并通过并行编译获得每个源代码的中间证明状态。最终,我们整理出一个包含约 3 万条数学定理和 20 万条 tactic 操作记录的数据集,其规模可与目前最大的数学定理库 Mathlib 相媲美。这个数据集不仅显著扩大了训练的数据规模,还提高了数据的多样性和代表性。

对于合成数据,我们通过训练自然语言和形式化语言的翻译器,将收集到的自然语言数学题目翻译成形式化语言。我们通过编译器过滤和反向翻译技术来确保题目翻译的正确性。在这个过程中,我们获得了 8 万多道难度不一的形式化数学竞赛题目。人工翻译这些数据的成本估算超过 10000 小时。

我们在收集到的人工数据和合成数据上进行迭代的训练。训练的过程是模型自我解题的过程,模型尝试在我们提供的所有人工数据和合成数据上进行证明,一旦发现正确证明的路线,就加入到训练数据当中进行强化学习,持续进行迭代。

证明例子

在这里我们展示模型证明 IMO1983 第 6 题的例子:

模型创新性地提出了四个辅助不等式,并非显然的组合起来证明了该复杂不等式。原始的证明涉及到变量替换、柯西不等式等较复杂的技巧,而模型提出的证明并没有使用到柯西不等式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/389489.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

24澳中博览会|2025非洲水协年会暨展览|2025山西水展

2024澳中博览会 2025非洲水协年会暨展览 2025年山西国际水展暨水利工程设计与施工、水处理技术设备、泵管阀、智慧水务及环保展 承办单位:山西泽嘉国际展览有限公司 上海泽嘉展览服务有限公司 战略合作伙伴 : 美国迈阿密水展 欧 洲 海 水 脱 盐 淡 化…

新版Next.js 15中5个令人惊叹的特性

前端岗位内推来了 Next.js 15已经到来,一切比以往更好! 从全新的编译器到700倍更快的构建时间,创建具有卓越性能的全栈Web应用从未如此简单。 让我们探索v15的最新特性: 1. create-next-app升级:更清晰的UI&#xff0c…

Android进程保活:如何让app一直运行

目录 1)为什么需要进行进程保活呢?需求是什么? 2)进程分类 3)进程的优先级 4)如何提高进程优先级 5)如何进行进程保活 一、为什么需要进行进程保活呢?需求是什么? 比如…

mysql高级语句的查询语句

一、排序语法,关键字排序 升序和降序 默认的排序方式就是升序 升序:ASC 降序:DESC 配合语法:order by 语法 1、升序 select * from info order by name; 根据名字升序排序,不需要加ASC select * from info order…

ChinaJoy 2024,VERYCLOUD睿鸿股份与你相聚

🎮2024 ChinaJoy于26日正式开幕 🕗7月26-28日 🌐VERYCLOUD睿鸿股份在BTOB商务洽谈馆 🌟W4-B785展位 🎇展台交流好礼相送 与多行业好友现场相聚、畅谈🧐 现场游戏企业云集 专业观众、玩家纷至沓来 与游戏/短…

配置frp实现内网穿透(.toml配置文件)

简介 frp 是一款高性能的反向代理应用,专注于内网穿透。它支持多种协议,包括 TCP、UDP、HTTP、HTTPS 等,并且具备 P2P 通信功能。使用 frp,您可以安全、便捷地将内网服务暴露到公网,通过拥有公网 IP 的节点进行中转。…

APACHE安装与应用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

乱弹篇(40)人类追求长寿

不要认为只有中国的老龄化才严重,实际上全球都面临老龄化,其中日本最为严重。 这是随着人类生活和医学水平的不断提高,寿命才会比过去数十年有了大幅度的提升。据资料显示,目前全球平均预期寿命估计为73岁。与百年之前相比&#…

上半年手游出海吸金超624亿,混合变现帮助游戏提升收益

2024年上半年,海外游戏市场总收入达到惊人的325亿美元,App Store平台收入同比增长11%。这一数据反映了手游市场的巨大潜力和活力,不论是在App Store还是Google Play,玩家们对手游的热情有增无减,支撑了开发者们收益的不…

5行代码快速Git配置ssh

0 流程步骤 检查本地主机是否已经存在ssh key生成ssh key获取ssh key公钥内容(id_rsa.pub)复制该内容,到Github账号上添加公钥,进入Settings设置验证是否设置成功 1 代码 # 1.检查本地主机是否已经存在ssh key cd ~/.ssh ls # …

WEB前端15-Router路由

Vue2-router路由 在使用Vue.js构建现代单页面应用程序(SPA)时,路由管理是至关重要的一部分。Vue Router 是 Vue.js 官方的路由管理器,它允许你在应用程序中实现基于组件的页面导航。本文将介绍Vue Router的基本概念和用法&#x…

LSTM与GNN强强结合!全新架构带来10倍推理速度提升

今天来推荐一个深度学习领域很有创新性的研究方向:LSTM结合GNN。 GNN擅长处理图数据关系和特征,而LSTM擅长处理时间序列数据及长期依赖关系。通过将两者结合,我们可以有效提升时间序列预测的准确性和效率,尤其是在处理空间和时间…

vue配置多个环境变量ENV【收藏版】

vue配置多个环境变量 1. 创建环境变量文件 在你的Vue项目根目录下,你可以创建以下环境变量文件: .env:所有环境都会加载的通用变量。 .env.local:本地覆盖,不会被git跟踪。 .env.[mode]:只有指定模式才会…

光伏气象仿真系统有什么优势?

光伏气象仿真系统作为这一领域的核心工具,凭借其独特的优势,正逐步成为行业标配。本文将围绕数据可靠性、功能齐全性、海外布局支持、系统开放性以及合作方式灵活性五个方面,深入探讨光伏气象仿真系统的显著优势。 1.数据可靠:权威…

Java中的Heap(堆)(如果想知道Java中有关堆的知识点,那么只看这一篇就足够了!)

前言:(Heap)是一种特殊的完全二叉树,它在诸多算法中有着广泛的应用,本文将详细介绍Java中的堆。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-CSDN博客 先让我们看一下本文大…

微信小程序-获取手机号:HttpClientErrorException: 412 Precondition Failed: [no body]

问题: 412 异常就是你的请求参数获取请求头与服务器的不符,缺少请求体! 我的问题: 我这里获取微信手机号的时候突然给我报错142,但是代码用的是原来的代码,换了一个框架就噶了! 排查问题&am…

Springboot手工艺品交易平台—计算机毕业设计源码11541

摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对手工艺品交易平台等问题,对手工…

【MySQL进阶】事务隔离级别 MVCC

目录 MySQL事务隔离级别 1. 读未提交(Read Uncommitted) 2. 读已提交(Read Committed) 3. 可重复读(Repeatable Read)(默认隔离级别) 4. 串行化(Serializable) 表格总结 MVCC …

抖音爬虫-批量下载主页作品

使用说明 config.ini是配置文件,可配置文件名规则、下载视频图文音乐等。 DownloadList.txt是批量下载清单,可配置批量下载类型和地址。 打开软件,选择对应的功能,第一次扫码登录(后续可自动加载cookie登录&#xff…

揭秘循环购模式:消费即收益

大家好,我是你们的电商策略顾问吴军。今天,我将带大家深入探索一种别开生面的商业模式——循环购模式。这种模式究竟有何魅力,能让消费者在享受购物乐趣的同时,还能获得额外的收益?更有趣的是,一些商家通过…