陶哲轩预言成真!MIT加州理工让ChatGPT证明数学公式,数学成见证AI重大突破首个学科

来源 | 新智源  ID | AI-era

大语言模型,可以用来证明数学定理了!

「数学天才」陶哲轩曾在一篇博客中称,2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

这个预言,如今已经成真!

加州理工、英伟达、MIT等机构的学者,构建了一个基于开源LLM的定理证明器。

而这篇论文,或许将改变数学的未来。

项目地址:https://leandojo.org/

在此,研究人员提出一个开源平台LeanDojo,提供工具包、基准和模型,为LLM创造了一种定理证明的交互式环境。

数学:首个见证AI重大突破的领域

论文一作杨凯峪表示,公式证明是计算机程序,其正确性可以被验证。

最重要的是,这项研究为解决LLM,在事实性和幻觉方面的缺陷开辟了一条新途径。

因为,定理证明是一种具有严格评价的代码生成形式,根本没有让模型产生幻觉的空间。

英伟达首席科学家Jim Fan激动转发称:见证人工智能实现重大突破的第一个学科,很可能就是数学!

他说:每个人都该读一读数学家陶哲轩的博客。在此博客中,陶预测在2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

为什么AI的第一个重大突破会在数学?理由如下——

- 数学可以方便地表示为编码问题

- 可以通过Lean这样的定理证明器进行严格的验证,而不是依赖经验结果

- 不需要像生物学和医学这样的物理实验,机器人技术的发展还有待进步

GPT擅长编码,Lean是公式数学的编码语言,还不会出现幻觉。

人工智能数学co-pilots来了。发现新定理的全自动人工智能数学家就是下一个!

有网友称,所以陶哲轩可以被解雇,很容易被取代,不是吗?

LeanDojo究竟有多强?

LeanDojo:定理证明交互式环境

机器学习,特别是大型语言模型,在使用证明助手Lean证明公式定理方面显示出广阔的前景。

LeanDojo其主要特点包括:

- 提供了用于数据提取和与Lean交互的工具 

- 证明中的前提(现有定理)的细粒度标注:使用和定义这些前提的位置 

- LeanDojo Benchmark:97000个人工编写的定理/证明,用于开发定理证明的机器学习模型

- ReProver(检索增强证明器):第一个基于LLM的证明器,专门增强了前提选择(Premise Selection)的检索

Lean是一个在数学家中非常受欢迎的证明助手工具。

研究团队针对Lean进行了加工和改进,开发出了LeanDojo。它可以从Lean中提炼出人类撰写的证明过程,形成一个数据集。

从而可以通过与Lean的证明环境互动,使得这个训练出来的模型可以用来证明定理。

LeanDojo的工作流程和原理大致如下图所示:

顶部右边:LeanDojo从Lean中提取证明到数据库中,用来训练机器学习模型。

这个流程也可以通过和Lean的证明环境进行交互后让训练好的模型来证明定理。

顶部左边:这是Lean定理

的证明树。在这里gcd是最大公约数的意思。

在证明定理时,我们从原始定理作为初始状态(根)开始,并重复应用策略(边)将状态分解为更简单的子状态,直到所有状态都得到解决(叶节点处)。

策略可能依赖于大型数学库中定义的诸如 mod_self 和 gcd_zero_left 之类的前提。

例如,mod_self 是证明中用于简化目标的现有定理 :

底部:只要给定一个状态,Reprover模型就能从数学库中检索前提,这些前提与状态连接起来,输入到一个作为编码器和解码器的Transformer中以生成下一个策略。

Benchmarks 基准测试

- LeanDojo Benchmark:从mathlib中提取的96,962个定理/证明、212,787个策略和128,163个前提。

- LeanDojo Benchmark 4:从mathlib4中提取的91,766个定理/证明和177,349个策略。前提信息将很快提供。

LeanDojo可以从Lean中的任何GitHub存储库中提取数据(支持Lean 3和Lean 4)。

这些数据包含原始Lean代码中不直接可见的丰富信息,包括文件依赖项、抽象语法树 (AST)、证明状态、策略和前提。

主要特征 1:前提信息

LeanDojo Benchmark包含前提的细粒度标注(在证明中使用它们以及在库中定义它们),为前提选择(定理证明中的关键瓶颈)提供有价值的数据。

主要特征 2:具有挑战性的数据分割

将定理随机分割到训练/测试中会导致高估模型性能。大语言模型可以通过在训练期间记住类似定理的证明,就可以证明看似困难的定理。

研究人员通过设计具有挑战性的数据分割来缓解这个问题,要求模型基于从未在训练中使用的创新性前提来泛化到定理。

与Lean产生交互

如上图所示,LeanDojo将Lean变成了一个类似体育馆的环境,数学家可以在其中观察证明状态,运行策略来改变状态,并接收有关错误或证明完成的反馈。

这样的一个环境对于评估/部署证明器或通过强化学习进行训练是必不可少的。

实验评估

研究人员使用LeanDojo Benchmark来训练和评估ReProver。

下图展示了10分钟内证明的定理的百分比。每一列代表不同的数据分割。

ReProver的性能优于Lean内置的证明自动化策略(tidy),提供了一个无需检索即可直接生成策略的测试基准。

研究人员采用的另一个基准是使用GPT-4以零样本方式生成策略。

发现新证明&发现公式错误

研究人员采用在miniF2F和FroofNet中的定理来评估ReProver。

他们发现miniF2F中有33个证明,ProffNet中有39个证明在Lean中是不存在的。

与此同时,最新研究还发现了ProofNet定理陈述公式中的多个错误。

详见:https://github.com/zhangir-azerbayev/ProofNet/pull/14

ChatGPT插件

研究人员还构建了一个LeanDojo的ChatGPT插件,使ChatGPT能够通过与Lean交互来证明定理。

他们具体在三种数学公式上进行了尝试,包括a+b+c=a+c+b,斯特林公式(Stirling's formula),以及高斯求和公式(Gauss' summation formula)。

结果发现,专业的定力证明LLM(ReProver)相比,ChatGPT可以将非正式数学与正式证明步骤交叉在一起,类似人类与证明助手的交互方式。

它甚至可以解释Lean的错误信息,并且比专业证明器更容易控制(通过提示工程)。

然而,由于搜索和规划方面的弱点,它在多数情况下很难找到正确的证明。

具体演示如下:

a+b+c=a+c+b

,时长01:45

斯特林公式(Stirling’s formula)

,时长03:17

高斯求和公式(Gauss' summation formula)

,时长05:08

GitHub上,开发者给出使用演示方法示例:

插件安装成功后,你可以让ChatGPT证明定理,只需告诉它定理的名称和定义。比如:

I want you to prove a theorem in Lean. The theorem's name is `hello_world`, and it is defined in the file `src/example.lean` in `https://github.com/yangky11/lean-example`. Please explain the theorem to me, lay out a high-level proof plan, and then try various tactics to prove the theorem.

初始化证明搜索可能需要一些时间。

你可以用提示来控制ChatGPT的行为。例如,在尝试任何测术之前,你可以要求它「产生一个高级证明计划」。

网友评论

这个发现是AI在数学领域的最佳应用,找到了一个非常现实的角度让AI能为数学研究做出了贡献。

我们离正式证明所有数学公式的伟大目标又进了一步!

数学证明真的是为大语言模型量身定制地任务,因为结果的有效性是可以完全确保的。

网友们除了狂赞这个项目对于数学研究的加速,纷纷脑洞大开,幻想了很多未来的可能性。

Cue了马老板,数学的飞速发展将使得人类进入一个科幻小说中才存在的世界。

因为数学是科学之母,数学的飞速发展将导致所有的自然科学不断加速。

数学将成为第一个看到人工智能实现重大突破的科学学科,这确实是有道理的。

作者介绍

Kaiyu Yang(杨凯峪)

杨凯峪是加州理工学院计算+数学科学(CMS)系的博士后研究员,导师是Anima Anandkumar。他曾在普林斯顿大学获得了博士学位,导师是Jia Deng,还与Olga Russakovsky和陈丹琦一起工作。

他的研究重点是神经符号人工智能,旨在使机器学习能够进行符号推理。

杨凯峪是两个角度实现目标:(1)将机器学习应用于符号推理任务,如形式逻辑或自然语言中的数学推理和定理证明;(2)将符号组件引入机器学习模型,使其更具可解释性、可验证性和数据高效。

目前,他正在研究能够理解和推理数学的人工智能。数学推理是人类智能的一个重要里程碑,它有可能改变科学和工程中的许多重要问题,比如解决偏微分方程和公式验证。

Alex Gu

Alex Gu是麻省理工学院的博士生,导师是Armando Solar-Lezama。在Armando和Jacob Andreas的指导下,他还在麻省理工学院获得了学士和硕士学位。

Alex Gu曾在Meta AI Research、Jane Street和pony.ai实习。

Peiyang Song

PeiYang Song是加州大学圣巴巴拉分校(UCSB)创意研究学院(CCS)荣誉计算机科学学士候选人。

研究兴趣包括机器学习及其在自然语言处理、计算机视觉中的应用,以及它与计算机架构、编程语言等的交叉。

他最近的研究工作主要在两个方向:1)结合大语言模型(LLM)和交互式定理证明器(ITP)的神经定理证明和自动推理;2)节能机器学习推理的时序逻辑。

参考资料:

https://leandojo.org/

https://twitter.com/KaiyuYang4/status/1673882824158613504

https://twitter.com/DrJimFan/status/1674083328478318594

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45354.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Typora数学公式大全

Typora数学公式大全 typora做笔记时候经常要插入数学公式,但是好多符号难以记忆,所以该文总结个人常用符号便于查找 1 常见希腊字母 公式代码公式代码公式代码\alphaα\xiξ\omegaω / Ω\betaβ\zetaζ\phiΦ / φ\deltaδ / Δ\DeltaΔ\piπ\epsilo…

福布斯发布2023全球亿万富豪榜

中国内地亿万富豪人数仍位居全球第二,仅次于美国。 对于全球富豪们来说,过去的一年充满挑战。利率骤增、股价承压、独角兽估值受挫,无一不对全球企业经营造成巨大影响。 2023福布斯全球亿万富豪榜的上榜人数较去年下降28位,总人…

智能音箱来了,语音交互设计的一点认知

语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。 实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了…

简易聊天室app实现:Unity+C# 客户端,Java 服务器端

UnityC# 客户端 UI界面根据个人喜好排版 图1 进入界面 图2 聊天界面 C#脚本代码如下: Client_dxc.cs using UnityEngine; using System.Net.Sockets; using System.Text; using System; using UnityEng…

解放生产力的 AI 神器来了

苏生不惑第405 篇原创文章,将本公众号设为星标,第一时间看最新文章。 今天分享几个解放生产力的AI写作神器,首先是腾讯出品的智能写作助手 https://effidit.qq.com/ ,文字工作者的福音,提供智能纠错、文本补全、文本改…

医学图像配准论文学习:解剖学约束和注意力引导的深层特征融合,用于关节分割和可变形医学图像配准(2023)

原文链接:Anatomically constrained and attention-guided deep feature fusion for joint segmentation and deformable medical image registration 一、Hilghtlights: 利用分割可以在配准过程中培养先验知识。多任务学习策略提高了配准性能。所提出的…

学习遥感大模型(1)

借着课程作业的机会学习了一些遥感大模型相关的工作,现总结一下 根据非盈利组织忧思科学家联盟(The Union of Concerned Scientists),截止2023年1月,全球对地观测卫星在轨数目已超过1000颗。大量的对地观测卫星很大程…

影像组学 - pyradiomics库 - 入门1

目录 一、了解 影像组学 影像组学是什么(引用一下chatgpt的解释) 影像组学的基本步骤 影像组学的作用与价值 影像组学有哪些特征 二、了解 pyradiomics pyradiomics是什么 pyradiomics使用步骤 pyradiomics的作用与价值 三、正文开始&#xff…

网络安全数据集介绍

目录 1、KDD99 入侵检测数据集 2、NSL KDD 入侵检测数据集 3、UNSW_NB15 入侵检测数据集 4、NASA MDP 软件缺陷数据集 5、CNNVD 软件安全漏洞数据集 6、NVD 软件安全漏洞数据集 1、KDD99 入侵检测数据集 该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连…

unsw计算机专业排名,新南威尔士大学UNSW计算机科学Computer Science专业排名第54位(2021年THE世界大学商科排名)...

2021年THE泰晤士高等教育计算机科学Computer Science专业世界大学排名公布,新南威尔士大学UNSW计算机科学世界排名第54位,新南威尔士大学UNSW计算机科学专业实力怎么样呢?下面美英港新留学介绍新南威尔士大学UNSW计算机科学专业培养计划,新南威尔士大学UNSW计算机科学专业研…

[当人工智能遇上安全] 7.基于机器学习的安全数据集总结

您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案…

找到一个好用的在线创意英文logo设计生成器网站

smashinglogo.com这个在线一键式生成LOGO的网站可以尝试下,输入品牌词和slogan可以无限生成logo。 下面简单举个例子,给大家看一下效果。假设要给Tesla生成一个logo,可以把品牌词写成Tesla,slogan我随便编了一句: jou…

请不要随便走上编程这条路

“互联网的黄金十年已经结束,接下来的十年是白银十年”。这话还是在2016年看到的,当时本人有些沮丧,毕竟还没找到实习的公司。 怎么说呢,在去年,也就是2015年的时候,不敢说别的,大部分互联网专业…

IC工程师简历制作全解读

前言 越来越觉得一份好简历真的很重要! 本文基于下面这个视频记录所得:那个拿35万offer的IC设计应届生简历是这么写的 IC工程师应届生薪资 工艺制造、封测方向——本科/专科:5000-8000元/月,硕士:8000-12000元/月设计方向——本科/专科:6000-1000元/月,硕士:1w5-2w元…

为什么有人说C++是最难学的编程语言? (4个回答)

从事嵌入式开发多年,有三种语言玩的比较多C/C java,从编程语言的难度来讲C是最难得,而且也是最难入门的编程语言,很多编程老手都是这个结论,为什么C是最难学的编程语言,虽然难学但还是很多编程老手喜欢研究它&#xff…

自学编程的人,90%以上都会掉进这些坑,避开这些误区能提高N倍学习效率

前言 几乎每一个程序员都会走上那么一段自学的道路,尤其是在校生或进入工作岗位之后,技术的提升基本都靠自学,有的虽然是网上报班学习,但更多时候还是自己在学习,师傅引进门,修行靠个人。 有的人自学很快…

30岁开始学编程晚吗?

二哥,说出来不怕你笑话,我和你年纪差不多。之前是干别的,但有点编程的基础,最近想转行程序员,不知道晚不晚,你能不能给我一些建议,或者说有没有一些攻略可以参考。 这是上个月一个读者小郑私信我…

机械专业转行IT行业,成功自学Java上岸(分享转行使)

秋招转眼就结束了,将近一年的努力,总算给了自己一个比较满意的结果。写下这篇贴子记录自己的转行以及秋招经历。 其实在转行初期,就无数次幻想着秋招结束,然后写一篇长长的经验贴的那种满足感。下面我尽量把我知道的,…

该如何从教育行业转行做IT——我的真实经历给出的偏门答案

“我需要,最狂的风,和最静的海。”——顾城 本文是对想要入行IT,但是没时间没钱上IT培训班的小伙伴的一些小小的建议,我即将要说的是最近发生在我自己身上的事,这些可以成为“如何转行IT”的一个偏门的答案&#xff0…

编程行业未来趋势如何

随时互联网不断的发展,编程技术不断的优化、成熟,编程行业未来趋势如何一直是热议的话题。 未来数字化,虚拟化,数据化的方向,就是说精神上的追求会成为一大消费趋势,看现在人们使用手机,玩电脑的…