陶哲轩预言成真!MIT加州理工让ChatGPT可以证明数学定理了

夕小瑶科技说 分享
来源 | 新智元
> 用大语言模型定理证明,加州理工华人一作最新研究可能改变数学未来。

大语言模型,可以用来证明数学定理了!

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

「数学天才」陶哲轩曾在一篇博客中称,2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

这个预言,如今已经成真!

加州理工、英伟达、MIT等机构的学者,构建了一个基于开源LLM的定理证明器。
而这篇论文,或许将改变数学的未来。

项目地址:https://leandojo.org/

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

在此,研究人员提出一个开源平台LeanDojo,提供工具包、基准和模型,为LLM创造了一种定理证明的交互式环境。

数学:首个见证AI重大突破的领域

论文一作杨凯峪表示,公式证明是计算机程序,其正确性可以被验证。

最重要的是,这项研究为解决LLM,在事实性和幻觉方面的缺陷开辟了一条新途径。

因为,定理证明是一种具有严格评价的代码生成形式,根本没有让模型产生幻觉的空间。

英伟达首席科学家Jim Fan激动转发称:见证人工智能实现重大突破的第一个学科,很可能就是数学!

他说:每个人都该读一读数学家陶哲轩的博客。在此博客中,陶预测在2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

为什么AI的第一个重大突破会在数学?理由如下——

  • 数学可以方便地表示为编码问题

  • 可以通过Lean这样的定理证明器进行严格的验证,而不是依赖经验结果

  • 不需要像生物学和医学这样的物理实验,机器人技术的发展还有待进步

GPT擅长编码,Lean是公式数学的编码语言,还不会出现幻觉。

人工智能数学co-pilots来了。发现新定理的全自动人工智能数学家就是下一个!

有网友称,所以陶哲轩可以被解雇,很容易被取代,不是吗?

LeanDojo究竟有多强?

LeanDojo:定理证明交互式环境

机器学习,特别是大型语言模型,在使用证明助手Lean证明公式定理方面显示出广阔的前景。

LeanDojo其主要特点包括:

  • 提供了用于数据提取和与Lean交互的工具
  • 证明中的前提(现有定理)的细粒度标注:使用和定义这些前提的位置
  • LeanDojo Benchmark:97000个人工编写的定理/证明,用于开发定理证明的机器学习模型
  • ReProver(检索增强证明器):第一个基于LLM的证明器,专门增强了前提选择(Premise Selection)的检索

Lean是一个在数学家中非常受欢迎的证明助手工具。

研究团队针对Lean进行了加工和改进,开发出了LeanDojo。它可以从Lean中提炼出人类撰写的证明过程,形成一个数据集。

从而可以通过与Lean的证明环境互动,使得这个训练出来的模型可以用来证明定理。

LeanDojo的工作流程和原理大致如下图所示:

顶部右边:LeanDojo从Lean中提取证明到数据库中,用来训练机器学习模型。

这个流程也可以通过和Lean的证明环境进行交互后让训练好的模型来证明定理。

顶部左边:这是Lean定理的证明树。在这里gcd是最大公约数的意思。

在证明定理时,我们从原始定理作为初始状态(根)开始,并重复应用策略(边)将状态分解为更简单的子状态,直到所有状态都得到解决(叶节点处)。

策略可能依赖于大型数学库中定义的诸如 mod_self 和 gcd_zero_left 之类的前提。

例如,mod_self 是证明中用于简化目标的现有定理 ( n : n a t ) : n % n = 0 (n:nat):n\%n=0 (n:nat):n%n=0

底部:只要给定一个状态,Reprover模型就能从数学库中检索前提,这些前提与状态连接起来,输入到一个作为编码器和解码器的Transformer中以生成下一个策略。

Benchmarks 基准测试

  • LeanDojo Benchmark:从mathlib中提取的96,962个定理/证明、212,787个策略和128,163个前提。

  • LeanDojo Benchmark 4:从mathlib4中提取的91,766个定理/证明和177,349个策略。前提信息将很快提供。

LeanDojo可以从Lean中的任何GitHub存储库中提取数据(支持Lean 3和Lean 4)。

这些数据包含原始Lean代码中不直接可见的丰富信息,包括文件依赖项、抽象语法树 (AST)、证明状态、策略和前提。

主要特征 1:前提信息

LeanDojo Benchmark包含前提的细粒度标注(在证明中使用它们以及在库中定义它们),为前提选择(定理证明中的关键瓶颈)提供有价值的数据。

主要特征 2:具有挑战性的数据分割

将定理随机分割到训练/测试中会导致高估模型性能。大语言模型可以通过在训练期间记住类似定理的证明,就可以证明看似困难的定理。

研究人员通过设计具有挑战性的数据分割来缓解这个问题,要求模型基于从未在训练中使用的创新性前提来泛化到定理。

与Lean产生交互

如上图所示,LeanDojo将Lean变成了一个类似体育馆的环境,数学家可以在其中观察证明状态,运行策略来改变状态,并接收有关错误或证明完成的反馈。
这样的一个环境对于评估/部署证明器或通过强化学习进行训练是必不可少的。

实验评估

研究人员使用LeanDojo Benchmark来训练和评估ReProver。

下图展示了10分钟内证明的定理的百分比。每一列代表不同的数据分割。

ReProver的性能优于Lean内置的证明自动化策略(tidy),提供了一个无需检索即可直接生成策略的测试基准。

研究人员采用的另一个基准是使用GPT-4以零样本方式生成策略。

发现新证明&发现公式错误

研究人员采用在miniF2F和FroofNet中的定理来评估ReProver。

他们发现miniF2F中有33个证明,ProffNet中有39个证明在Lean中是不存在的。
与此同时,最新研究还发现了ProofNet定理陈述公式中的多个错误。

详见:https://github.com/zhangir-azerbayev/ProofNet/pull/14

ChatGPT插件

研究人员还构建了一个LeanDojo的ChatGPT插件,使ChatGPT能够通过与Lean交互来证明定理。

他们具体在三种数学公式上进行了尝试,包括a+b+c=a+c+b,斯特林公式(Stirling’s formula),以及高斯求和公式(Gauss’ summation formula)。

结果发现,专业的定力证明LLM(ReProver)相比,ChatGPT可以将非正式数学与正式证明步骤交叉在一起,类似人类与证明助手的交互方式。

它甚至可以解释Lean的错误信息,并且比专业证明器更容易控制(通过提示工程)。

然而,由于搜索和规划方面的弱点,它在多数情况下很难找到正确的证明。

具体演示如下:

a+b+c=a+c+b

hah

斯特林公式(Stirling’s formula)

hah

高斯求和公式(Gauss’ summation formula)

GitHub上,开发者给出使用演示方法示例:

插件安装成功后,你可以让ChatGPT证明定理,只需告诉它定理的名称和定义。比如:

I want you to prove a theorem in Lean. The theorem’s name is hello_world, and it is defined in the file src/example.lean in https://github.com/yangky11/lean-example. Please explain the theorem to me, lay out a high-level proof plan, and then try various tactics to prove the theorem.

初始化证明搜索可能需要一些时间。
你可以用提示来控制ChatGPT的行为。例如,在尝试任何测术之前,你可以要求它「产生一个高级证明计划」。

网友评论

这个发现是AI在数学领域的最佳应用,找到了一个非常现实的角度让AI能为数学研究做出了贡献。

我们离正式证明所有数学公式的伟大目标又进了一步!

数学证明真的是为大语言模型量身定制地任务,因为结果的有效性是可以完全确保的。

网友们除了狂赞这个项目对于数学研究的加速,纷纷脑洞大开,幻想了很多未来的可能性。

Cue了马老板,数学的飞速发展将使得人类进入一个科幻小说中才存在的世界。

因为数学是科学之母,数学的飞速发展将导致所有的自然科学不断加速。
数学将成为第一个看到人工智能实现重大突破的科学学科,这确实是有道理的。

作者介绍

Kaiyu Yang(杨凯峪)

杨凯峪是加州理工学院计算+数学科学(CMS)系的博士后研究员,导师是Anima Anandkumar。他曾在普林斯顿大学获得了博士学位,导师是Jia Deng,还与Olga Russakovsky和陈丹琦一起工作。

他的研究重点是神经符号人工智能,旨在使机器学习能够进行符号推理。

杨凯峪是两个角度实现目标:(1)将机器学习应用于符号推理任务,如形式逻辑或自然语言中的数学推理和定理证明;(2)将符号组件引入机器学习模型,使其更具可解释性、可验证性和数据高效。

目前,他正在研究能够理解和推理数学的人工智能。数学推理是人类智能的一个重要里程碑,它有可能改变科学和工程中的许多重要问题,比如解决偏微分方程和公式验证。

Alex Gu

Alex Gu是麻省理工学院的博士生,导师是Armando Solar-Lezama。在Armando和Jacob Andreas的指导下,他还在麻省理工学院获得了学士和硕士学位。

Alex Gu曾在Meta AI Research、Jane Street和pony.ai实习。

Peiyang Song

PeiYang Song是加州大学圣巴巴拉分校(UCSB)创意研究学院(CCS)荣誉计算机科学学士候选人。

研究兴趣包括机器学习及其在自然语言处理、计算机视觉中的应用,以及它与计算机架构、编程语言等的交叉。

他最近的研究工作主要在两个方向:1)结合大语言模型(LLM)和交互式定理证明器(ITP)的神经定理证明和自动推理;2)节能机器学习推理的时序逻辑。

参考资料

[1]https://leandojo.org/
[2]https://twitter.com/KaiyuYang4/status/1673882824158613504
[3]https://twitter.com/DrJimFan/status/1674083328478318594

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7485.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

太神奇了,1984 年的电脑也能用上 ChatGPT

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 新加坡的逆向计算爱好者 Yeo Kheng Meng 发布了一个 “doschgpt” ChatGPT 客户端,这个客户端适用于上世纪八十年代的 MS-DOS 系统。 目前这个 DOS 系统的 ChatGPT 客户…

用ChatGPT做一款二次元卡牌游戏!完成度超90%,即将开放源码!

1.0 游戏策划设计 孙二喵,继上次借助ChatGPT做了一个3D小游戏后,很多朋友问,AI可以做大型项目么?还是仅限于简单的小游戏。 *AI生成的3D小游戏 所以二喵准备接着用 AI 设计一款中型体量的卡牌游戏,发布到微信小游戏和海…

【关于ChatGPT的30个问题】2、ChatGPT是如何工作的?/ By 禅与计算机程序设计艺术

2、ChatGPT是如何工作的? ChatGPT是如何工作的?写一篇文章,分2级目录,要10个目录,不少于5000字。markdown格式。 目录 ChatGPT是如何工作的? ChatGPT的工作原理

基于ChatGPT上线《你说我猜》小游戏

摘要 AIGC、GPT、休闲小游戏三者可以怎么结合? AIGC、GPT与小游戏的结合为游戏体验带来了新的可能性。AIGC(Artificial Intelligence Game Content)作为一种人工智能技术,可以自动生成任务、剧情和角色对话等游戏元素&#xff0c…

ChatGPT 又整活了,从零开始设计并实现一个类似数独的游戏 Sumplete

ChatGPT 又整活了。这次是从零开始设计并实现一个类似数独的游戏。 数独应该很多人都玩过,规则也很简单。 那能不能设计一款与数独类似的新游戏呢?国外有位叫 Daniel Tait 的工程师就想到了让 ChatGPT 来试试。经过几个小时与 ChatGPT 的对话&#xff0c…

50+ 可以帮助提高前端开发效率的 ChatGPT Prompts

大厂技术 高级前端 Node进阶 点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 如果你已经厌倦了繁琐重复的编码日常,想要提升自己的效率,那你可是来对地方了!借助 ChatGPT 的强大能力,你可…

ChatGPT 前端 = 有点er意思

HOT! HOT! HOT! 🔥 🔥 🔥 首先我们先来看下最近的热度来的有多么的突然,那简直是太炸裂了,语言不好描述,我收集了一些常见平台的指数截图,大家可以感受一下: 点击跳转到百度指数 …

ChatGpt的学习报告

目录 前言 ChatGpt的简介 ChatGpt的功能 总结 前言 由openai开发的chatgpt席卷网络,它的可创作能力与对话应用达到了人工智能的前端,提升了程序员的可替代性,焦虑与恐慌占据了网络领域,但更有智者明白善用工具,才能…

尝新学术版ChatGPT!中科院chatGPT学术优化

尝新学术版ChatGPT!中科院chatGPT学术优化 尝新学术版ChatGPT!中科院chatGPT学术优化 尝新学术版ChatGPT!中科院chatGPT学术优化 主要参考这篇文章,写的很详细~ 执行过程中遇到了如下两个小问题 1,安装依赖 配置 req…

优化chatGPT提示词的Prompts

你扮演一个专业的chatGPT提示词工程师,我将为您提供我的提示词,它用三个反引号分隔,请根据openai发布的提示词标准和优化技巧,改进和优化我的提示词,让chatGPT能够更好的理解。 我的第一个提示词是:“”“……

ChatGPT系列之——中科院AcademicGPT学术优化

文章目录 零,指南相关网址友情链接 一,安装Git软件二,使用Git Bash克隆GitHub项目:三,配置config.py文件四,安装依赖方法一:系统安装方法二:虚拟环境安装(推荐&#xff0…

ChatGPT强化学习大杀器——近端策略优化(PPO)

ChatGPT强化学习大杀器——近端策略优化(PPO) 近端策略优化(Proximal Policy Optimization)来自 Proximal Policy Optimization Algorithms(Schulman et. al., 2017)这篇论文,是当前最先进的强…

中科院ChatGPT学术优化--超详细部署

文章目录 中科院ChatGPT学术优化--超详细部署下载项目git命令下载github下载 download zip 安装项目环境创建环境进入环境安装依赖 打开解压的项目配置API_KEY配置代理网络的地址 运行项目 中科院ChatGPT学术优化–超详细部署 项目地址:https://github.com/binary-husky/chatg…

4.网络爬虫—Post请求(实战演示)

网络爬虫—Post请求实战演示 POST请求GET请求POST请求和GET请求的区别获取二进制数据爬[百度官网](https://www.baidu.com/)logo实战 发送post请求百度翻译实战 使用session发送请求模拟登录17k小说网 常见问题 前言: 📝​📝​此专栏文章是专…

chatgpt赋能python:Python安装教程:一步步实现Python开发环境搭建

Python安装教程:一步步实现Python开发环境搭建 Python是一种高效、易读、易维护的编程语言。在人工智能、数据科学、Web开发等领域都有广泛的应用。如果你是一名初学者或Python开发者,本文将为你提供Python安装教程。 第一步:下载Python安装…

chatgpt赋能python:Python虚拟环境搭建指南

Python虚拟环境搭建指南 Python是一种广受欢迎的编程语言,它可以用于各种应用程序开发。Python语言优雅简洁,易于理解和学习。但是,当您在多台计算机上编写Python代码时,会遇到与环境设置和包依赖项相关的问题。 虚拟环境可帮助…

chatgpt赋能python:Python在线聊天:实现即时通讯的快速解决方案

Python在线聊天:实现即时通讯的快速解决方案 在当今数字时代,在线聊天已经成为人与人之间交流的主流方式。Python在线聊天应用程序提供了一种快速且可定制的解决方案,使个人用户和企业可以进行互联网通信。本文将向您介绍Python在线聊天的基…

chatgpt赋能python:Python读取聊天记录-如何轻松得到你需要的信息

Python读取聊天记录 - 如何轻松得到你需要的信息 如果你曾经需要从聊天记录中获取信息,你肯定知道这是一个非常繁琐和耗时的过程。但是,如果你会使用Python,它将会是一个轻松的过程。在本文中,我们将介绍如何使用Python读取聊天记…

chatgpt赋能Python-如何用python聊天

介绍 Python是一种广泛使用的编程语言,用于构建各种应用程序和工具。它也是一个非常有效的工具,可用于开发聊天应用程序。Python具有丰富的库和框架,这些库和框架可以帮助您轻松地构建聊天应用程序。 在本文中,我们将介绍如何使…

chatgpt赋能python:Python聊天机器人库——让你的聊天机器人变得更智能

Python聊天机器人库——让你的聊天机器人变得更智能 随着人工智能技术的快速发展,聊天机器人已经成为了现代人们生活中不可或缺的一个工具。而Python作为一门具备丰富生态的高级计算机语言,也提供了很多强大的聊天机器人库供开发者使用。在本文中&#…