大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?...

77a01fa6e4ba6286c8e6c4f96f680cd0.png

来源:机器之心报道

编辑:张倩、蛋酱

数学将成为第一门借助AI实现重大突破的学科?

去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议并检查错误,从而提高编程效率。AlphaCode 的问世意味着 AI 在解决现实世界问题的道路上又迈出了一大步。

巧合的是,在同一天,OpenAI 也展示了一项重要成果:他们开发的神经定理证明器成功解出了两道国际奥数题。这一成果是在微软打磨了多年的数学 AI——Lean 的基础上完成的。Lean 于 2013 年推出,数学家可以把数学公式转换成代码,再输入到 Lean 中,让程序来验证定理是否正确。OpenAI 的成功表明,AI 不仅可以用于解决编程等应用学科的问题,还能用来攻克数学等自然学科。

57a410fdb06f562abbefb1e1a0bc5f72.jpeg

值得注意的是,这并不是 AI 研究者的「一厢情愿」。就像快速接受 AlphaCode 的软件工程师一样,数学家也在越来越频繁地使用 AI,比如获得过菲尔茨奖的陶哲轩。他甚至预言,到 2026 年,AI 将成为数学研究领域可信赖的合著者(co-author)。

与此同时,主攻数学问题的 AI 也在不断发展壮大:一个名为 LeanDojo 的开放平台提供了一套基于大型语言模型的开源定理证明器,消除了在机器学习方法用于定理证明时存在的私有代码、数据和大量计算需求等障碍,为机器学习方法在定理证明领域的研究提供了便利。

「我相信,数学将成为第一门通过人工智能实现重大突破的学科。」在看到这些进展之后,英伟达高级 AI 研究科学家 Jim Fan 在一篇推特中预言说。

3b8e58cb800c61611b83cd78c0f0febd.jpeg

除了以上种种进展,Jim Fan 还列出了以下推断依据:

  • 数学可以被方便地转化为编码问题,字符串在其中具有重要地位,这使得数学问题可以通过人工智能工具进行处理和分析;

  • 与依赖实证结果的学科不同,数学可以通过定理证明器(如 Lean)进行严格验证;

  • 与需要依赖物理实验的学科(如生物学和医学)不同,数学不需要进行物理实验,无需依赖尚未完全成熟的机器人技术或实验设备。

在数学与 AI 的这场交叉之旅中,数学家和 AI 研究科学家在共同探索更多可能性。或许,陶哲轩和 Jim Fan 的预言都将加速实现。

在陶哲轩手里,AI 成了数学家的得力助手

「我预计,如果使用得当,到 2026 年,AI 将成为数学研究和许多其他领域值得信赖的合著者。」数学家陶哲轩在前不久的一篇博客中说道。

在众多知名数学家中,陶哲轩是较早接受并发现 ChatGPT 这类 AI 大模型数学价值的一个。早在今年 3 月份 ChatGPT 连鸡兔同笼问题都搞不定的时候,陶哲轩就给予了它肯定的态度,认为这类大模型完全可以胜任一些辅助性质的工作,比如帮数学研究者进行语义搜索、生成一些提示。

7d35144461ac0783e1a521d09b4a8261.jpeg

在这个例子中,陶哲轩提出的问题是:「我在寻找一个关于 xx 的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?」在这轮问答中,虽然 ChatGPT 没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre 公式),我们可以结合传统搜索引擎轻松找到正确答案。

没过多久,OpenAI 就发布了数学能力显著提升的 GPT-4。陶哲轩也一直在尝试解锁这一强大的 AI 工具。

在使用过程中,他总结出了一些经验:不要试图让 AI 直接回答数学问题(这样得到的答案八成是废话),而是让它扮演合作者的角色,要求它提供策略建议。

56375f3da2d34c2e4a9c929c7082f117.jpeg

按照这种提示方法,陶哲轩在 GPT-4 的帮助下成功解决了一个数学证明题(GPT4 提出了 8 种方法,其中 1 种成功解决了问题)。

4a0de20b5b8c9c29ad5d315e950990f5.jpeg

陶哲轩利用 GPT-4 解决的问题。

b577818596787c99116471ca45f51e7e.jpeg

陶哲轩为了解决上述证明题提供给 GPT-4 的 Prompt:「你好,我是一名数学教授,我希望你能扮演一位善于提出解题技巧的数学专家合作者。我正试图回答 MathOverflow 中的以下问题……」

cb0f2703197bc0298b4061fa2dc2c69c.jpeg

GPT-4 给出的部分建议。

当然,除了这个证明题外,陶哲轩也在用 GPT-4 完成其他一些工作,包括但不限于:

  • 提出问题:他将最近一些数学预印本论文的前几页输入给 GPT-4,并让其生成一些与该论文相关的问题,就像同行提出的问题一样。这可以帮助他更好地进行演讲准备。

  • 回答问题:他现在经常使用 GPT-4 来回答随意和模糊的问题,以前他可能会通过精心准备的搜索引擎查询来尝试回答这些问题;

  • 辅助写作:他曾经让 GPT-4 给复杂文档提供初稿建议,以辅助写作。

不过,陶哲轩也指出,AI 在数学等学术领域的广泛应用对出版界和教育界来说都是一个考验:当人工智能指导的研究生入门级数学论文可以在不到一天的时间内生成时,研究期刊将如何改变其出版和引用机制?我们的研究生教育方式将如何改变?我们会积极鼓励和训练学生使用这些工具吗?对于这些问题,陶哲轩并没有给出答案。

拿下数学定理证明,这项研究或让陶哲轩预言早日成真

一直以来,形式化的定理证明都是机器学习的重要挑战。形式化证明本质上是一种计算机程序,但与 C++ 或 Python 中的传统程序不同,证明的正确性可以用证明助手(如开头提到的 Lean)来验证。定理证明是代码生成的一种特殊形式,在评估上非常严格,没有让模型产生幻觉的空间。

这对目前的大型语言模型(LLM)来说是有挑战性的,尽管 LLM 在代码生成方面表现出了优秀的能力,但在事实性和幻觉性方面还有缺陷。

以往,对于用于定理证明的 LLM 研究面临着许多障碍:比如,现有的基于 LLM 的证明器没有一个是开源的;它们都使用私有的预训练数据,而且计算要求可以达到数千个 GPU 时;此外,有些基础设施是依赖于为分布式训练和与证明助手的互动而定制的,如果没有开源代码,这两者是不可能完全复现的。

在最近的一项研究中,来自加州理工学院、英伟达等机构的研究者在该命题的解决进程上走出了重要一步,提出了开放平台 LeanDojo。

e3a03c3ebaaffa6bd824369b55b5da2f.jpeg

论文链接:https://arxiv.org/pdf/2306.15626.pdf

项目主页:https://leandojo.org/

总体来说,该研究有如下贡献:

  • 首先,介绍了从 Lean 中提取数据并与之交互的工具;

  • 第二,开发了第一个用于定理证明的检索增强的语言模型 ReProver;

  • 第三,为基于学习的定理证明构建了一个具有挑战性的基准,并利用它来验证 ReProver 的有效性;

  • 最后,公开发布数据、模型和代码,推动了对定理证明的 LLM 的研究。

LeanDojo 的诞生有望改变当前现状:从开源工具包、模型到基准,LeanDojo 让研究人员能够以适度的计算成本获得最先进的基于 LLM 的证明器。ReProver 不依赖私人数据集,并且可以在一周内在单个 GPU 上完成训练。

研究细节

Lean 是一种编程语言,既可以写传统的程序,也可以写定理和证明。它提供了两个机制:首先,基于具有依赖类型的函数式编程,Lean 为定义程序、数学对象、定理和证明提供了一种统一的语言;第二,Lean 提供了一个策略系统(tactic system),用于半自动地构建机器可检查的证明。

图 2 展示了一个简单的例子,以说明定理是如何在 Lean 中被形式化和证明的:

46f7fa0f48638c0701ad44d5414b4874.jpeg

策略(tactic)的语法是相当灵活的,可以接受参数,也可以组合成复合策略。策略可以看作是特定领域语言(DSL)中的程序。用户可以通过定义新的策略来扩展 DSL。这种离散的、组合的和无界的行为空间使得定理证明对机器学习具有挑战性。

另一个挑战是前提的选择。前提是对证明一个定理有用的现有公理或定义,被用作策略的论据。证明不能使用尚未定义的前提,也不能使用未导入当前文件的前提。通常,前提是来自一个包含数十万个现有定义和定理的大型数学库,这使得人类和机器都很难在生成策略时选择正确的前提。这是定理证明中的一个关键瓶颈,也是研究者希望通过检索增强的 LLM 来解决的。

LeanDojo Benchmark

研究者使用 LeanDojo 构建了一个包含 96,962 条从 mathlib 提取的定理 / 证明的基准。该基准是目前最大的以数学为重点的定理证明数据集之一,涵盖了不同的主题,如分析、代数和几何。

与现有的 Lean 数据集不同,LeanDojo Benchmark 还包含了 128,163 个前提的定义,不仅包括定理,还包括可以作为前提的其他定义,例如图 2 中的 gcd。此外,该数据集有 212,787 个策略,其中 126,058 个策略至少有一个前提。在有前提的策略中,前提的平均数量为 2.12。

LeanDojo Benchmark 解决了两项关键问题:

  • 前提信息

Lean repos(例如,mathlib 或 lean-liquid)包含人写定理 / 证明的源代码。然而,原始代码并不适合用于训练验证器,它缺乏人类在使用 Lean 时可以获得的运行时信息,例如证明步骤之间的中间状态。

而 LeanDojo 可以从 Lean 的任何 GitHub repo 中提取数据,这些数据包含在原始 Lean 代码中无法直接看到的丰富信息,包括文件依赖关系、抽象语法树(AST)、证明状态、策略和前提。LeanDojo Benchmark 包含细粒度的前提注释(它们在证明中使用的位置和在库中定义的位置),为前提选择提供有价值的数据,也是定理证明的关键瓶颈。

  • 具有挑战性的数据分割

研究者发现,将定理随机分成训练 / 测试的常见做法导致了之前论文中高估了性能。LLM 只需在训练期间记住类似定理的证明,就能证明看似困难的定理。

在人类编写的 Lean 代码中,一个常见的惯用语法是为同一数学概念的略微不同的属性设置了一个类似的定理 / 证明块。例如,在图 3 中,最后两个定理不仅看起来相似,而且有相同的证明。如果其中一个在训练中,模型可以通过记忆轻松证明另一个。这种捷径使模型能够证明看似不简单的定理,包括那些需要前提才能证明的定理。

c07560d16c9862fe8bebc6c172a66405.jpeg

在 LeanDojo Benchmark 中,研究者通过设计具有挑战性的数据分割 novel_premises 来缓解这个问题,它需要测试证明以使用至少一个从未在训练中使用过的前提。

例如,图 3 中的最后两个定理都使用了前提 conj_mul。如果一个定理在 novel_premises 分割的训练集中,另一个也必须在训练中。

以编程方式与 Lean 交互

LeanDojo 的另一个重要功能是以编程方式与 Lean 交互。它把 Lean 变成了一个类似健身房的环境,在这个环境中,证明器可以观察证明状态,运行策略来改变状态,并接收错误或证明完成的反馈。这个环境对于评估 / 部署验证器或通过 RL 训练证明器是不可缺少的。

下面是 LeanDojo 的主要形式,用于通过策略与 Lean 交互。Lean 同样支持不基于策略的其他证明风格,不过 LeanDojo 只支持策略风格的证明。但只要有足够的通用性,任何证明都可以转换为策略风格的证明。

b47114ee53b5e388e341327c3696ed18.jpeg

ReProver

随后,研究者使用 LeanDojo Benchmark 来训练和评估了 ReProver。其核心是一个由检索增强的策略生成器(图 1 底部)。

8de53781dfe8bbf2139d5fc005e9d8f6.jpeg

根据当前的证明状态,它可以检索出少数可能有用的前提,并根据状态和检索出的前提的连接情况生成一个策略。在证明定理时,该模型在每一步都会生成多个策略候选者,这些候选者被用于标准的最优搜索算法来寻找证明。

值得注意的是,ReProver 的训练只需要在单 GPU 上花费五天时间(120 个 GPU 时),所需的计算量大大低于之前的方法(1000 小时以上)。

此前的基于 LLM 的证明器都在数学和编码的特定数据集上进行预训练,计算成本很高而且数据集是保密的。相比之下,ReProver 避免特定领域的预训练,建立在「google/byt5-small」之上,这是一个通用的、公开可用的、相对较小的模型检查点。

此外,ReProver 只在人类写的策略上进行了微调,没有辅助数据或通过与 Lean 在线互动收集的数据。虽然这些正交方向是有价值的,但会大大增加方法的复杂性和计算要求。

在评估实验中,ReProver 可以证明 51.4% 的定理,优于直接生成策略而不进行检索的 baseline(47.5%)和另一个使用 GPT-4 以零样本方式生成策略的 baseline(28.8%)。

20b2f95ac4385598fbaad7a83d514292.jpeg

研究者还在 MiniF2F 和 ProofNet 两个数据集上测试了 ReProver。它可以在 MiniF2F 中证明 26.5% 的定理,在 ProofNet 中证明 13.8% 的定理,这几乎能够媲美强化学习的 SOTA 方法,且训练时使用的资源少得多。

此外,许多定理在 Lean 中没有 ground- truth 证明。而 ReProver 能够证明 65 个目前在 Lean 中没有得到证明的定理,其中 MiniF2F 发现了 33 条证明,ProofNet 中发现了 39 条。研究者表示,ReProver 也可以作为一个有效的工具来增强 Lean 中现有的数学库。

ChatGPT 插件

研究者还构建了一个 LeanDojo ChatGPT 插件,使 ChatGPT 能够通过与 Lean 交互来证明定理。与专门针对定理证明进行微调的 LLM(例如 ReProver)相比,ChatGPT 可以将非形式化数学与形式化证明步骤交织在一起,类似于人类与证明助手的交互方式。它可以解释来自 Lean 的错误消息,并且比专门的证明器更容易操纵。然而,由于搜索和规划方面的弱点,在大多数情况下很难找到正确的证明。

示例如下:

a + b + c = a + c + b

Stirling’s formula

Gauss' summation formula

团队信息

最后来认识一下这篇文章的作者们:

a5157b4dc3cb1c8ee644acb9dc8759fa.jpeg

论文一作杨凯峪目前是加州理工学院计算和数学科学 (CMS) 系的博士后研究员 ,此前在普林斯顿大学获得博士学位。

Alex Gu 是麻省理工学院的一名博士生,导师为 Armando Solar-Lezama。此前,他在麻省理工学院获得了学士和硕士学位,拥有 Meta AI Research、Jane Street 和 pony.ai 多家公司的实习经历。

Peiyang Song 目前是加州大学圣巴巴拉分校(UCSB)创意研究学院(CCS)的计算机科学本科生。他的研究工作主要集中在两个方向:1)神经定理证明和自动推理,结合大型语言模型(LLMs)和交互式定理证明器(ITPs);2)用于能源效率机器学习推理的时间逻辑。

Shixing Yu 目前是美国康奈尔大学计算机科学专业博士生,此前在德州大学奥斯汀分校获硕士学位,本科就读于北京大学信息科学技术学院。

参考链接:

https://unlocked.microsoft.com/ai-anthology/terence-tao/

https://unlocked.microsoft.com/ai-anthology/terence-tao/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

bccb31d1f03155354c30313e09475408.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67852.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对话三维家创始人蔡志森:AIGC让家装从“填空题”变成了“选择题”

(图片来源:Pixels) 三维家讲透了一个道理:数字化企业如何利用已有优势构建AGI能力。 数科星球原创 作者丨苑晶 编辑丨大兔 AIGC火热半年有余,人们已对ChatGPT不再陌生。 从互联网巨头再到上一代AI企业,…

人工智能图片素材高清,机器人图片卡通 素材

1、做一个人工智能的ppt需要哪些素材 不能理解你的问题。ppt仅仅是一个做幻灯的软件,可以插入图片、动画、音乐、过场等幻灯的功能,还谈不上有人工智能的能力。人工智能需要有更为强大的类似人脑思维的能力,简单的说人工智能是可以思考的机器…

一键生成文章的软件有哪些?将这几个不错的软件分享给你

大家平时遇到文章不会写,或者在写文章的时候断了思路不知该如何进行的时候,怎么办呢?其实大家可以使用一些能够自动生成文章的软件。那么输入文章标题自动生成文章的软件有哪些,你们知道吗?下面我就来为大家推荐这几款…

论文ai生成-一键生成论文的软件

ChatGPT自动写论文 ChatGPT可以使用生成的文本来帮助撰写学术论文,其中包括文章的大纲、段落和句子。但是,它并不会像一个完全替代人的写作工具一样让你“自动”写作。 虽然ChatGPT可以生成相当准确的语言,但它并不完美,它并不能…

一键生成mybatis

一键生成mybatis工具 1.mybatis-generator 步骤: 步骤1&#xff1a;修改pom.xml&#xff0c;添加mybatis-generator-maven-plugin插件 <!-- mybatis代码生成插件 --><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-ge…

学习实践-Alpaca-Lora (羊驼-Lora)(部署+运行+微调-训练自己的数据集)

Alpaca-Lora模型GitHub代码地址 1、Alpaca-Lora内容简单介绍 三月中旬&#xff0c;斯坦福发布的 Alpaca &#xff08;指令跟随语言模型&#xff09;火了。其被认为是 ChatGPT 轻量级的开源版本&#xff0c;其训练数据集来源于text-davinci-003&#xff0c;并由 Meta 的 LLaMA …

aiXcoder私有化部署与大模型个性化训练:如何将AIGC应用到您的企业中?

现代企业的成功转型离不开创新&#xff0c;而创新离不开人工智能等前沿技术的推动。随着全球经济的发展和竞争的日益激烈&#xff0c;企业需要更快、更高效地交付新产品、服务和解决方案&#xff0c;以更好地满足客户需求并保持市场竞争力&#xff0c;应用研发效率提升企业竞争…

【AI人工智能】 最强大的语言模型镜像 使用起来真的太方便了! 真的要解放代码思维了吗?

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

Segment Anything Meta开源分割一切模型,为进军元宇宙更近一步

上期图文教程,我们分享了Segment Anything分割一切模型的原理,Segment Anything Model 是一种以最少的人工干预构建全自动可提示图像分割模型的方法。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对…

ubuntu(虚拟机)解决git速度慢的问题

在家用的是电信网&#xff0c;每次git大型项目总是失败&#xff0c;甚是苦恼&#xff0c;解决了好几次都失败了&#xff0c;终忍受不了&#xff0c;下定决心干掉它。 git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。 只要找到这个域名对应的ip地址&#xf…

两行配置解决github官网访问速度慢的问题(速度贼快!)

文章目录 前言一、配置步骤1.1 CMD查看网络连通情况1.2 获取Github相关网站的ip 二、配置本机host地址三、Github官网总结 前言 小伙伴们会不会因为github官网速度慢而烦恼呢&#xff0c;想上班去摸鱼都不方便&#xff0c;下面小编带你快速解决github访问速度慢的问题。 一、配…

GitHub访问速度慢

github 是全世界最流行的开源项目托管平台,其代表的开源文化从根本上改变了软件开发的方式.基本上所有的需求都能从 github 上或多或少找到现成的实现方案,再也不用重头开始造轮子而是自定义轮子! 然而,有时候国内访问 https://github.com/ 速度太慢,如何加速访问 github.com …

机器人开发--Cartographer详细介绍

机器人开发--Cartographer详细介绍 1 介绍1.1 概述1.2 评价1.3 特点 2 框架官方 3 代码结构heimazaifei 解读linyicheng 解读Xiaotu 解读cartographer_ros地图构建器map_builderLocal SLAMGlobal SLAM 赵锴 解读地图设计匹配方法一阶段解算二阶段解算后端如何检测回环检测回环后…

《恒盛策略》人工智能概念回落,青木股份等跌超10%

近来强势的人工智能概念28日盘中回落走低&#xff0c;截至发稿&#xff0c;青木股份跌超13%&#xff0c;光云科技跌超12%&#xff0c;彩讯股份、宝兰德跌超10%&#xff0c;财富趋势、昆仑万维、当虹科技跌约9%&#xff0c;同花顺跌超8%&#xff0c;寒武纪跌逾7%。 消息面上&…

变强速度超出预期,安全问题逐渐变大,多国停用ChatGPT

前段时间&#xff0c;小编向大家介绍过&#xff0c;随着最近GPT-4语言模型的正式投入使用&#xff0c;ChatGPT也带来了全新的插件——网络浏览器和代码解释器&#xff0c;赋予ChatGPT使用工具、联网、运行计算的能力。 更新后&#xff0c;跟据全球媒体的反馈来看&#xff0c;GP…

10大免费的白嫖网站

作者&#xff1a;pk哥 来源&#xff1a;Python知识圈 本次给大家分享下常用的 10个白嫖网站。 万能命令 https://wanneng.run/cn/在你浏览任意网页时&#xff0c;在网址前面输入这个万能命令 wn.run/ 就会展示出用于该网页的各种附加在线工具&#xff0c;方便快捷&#xff0c;一…

白嫖各种在线工具~~总有一款适合你

小伙伴们&#xff0c;好久不见 絮叨在线网站1.脚本之家&#xff08;在线脚本&#xff09;2.ProcessOn&#xff08;在线绘图神器&#xff09;3.MaTools&#xff08;在线工具&#xff09;4.独特工具箱&#xff08;代码图片神器&#xff09;5.Trello&#xff08;在线任务管理工具&…

白嫖百度文库的方法

鉴于作恶多端的baidu,网盘作恶&#xff0c;文库也作恶。 今天来看下怎么白嫖百度文库 经验是在知乎上看到的&#xff0c;知乎一下你就知道~ 方法揭晓&#xff1a;VVV大法好 baiduvvv 具体的教程往下看&#xff0c;跟着我一步一步走 第一&#xff1a;正常我们看到的界面是这样…

产品经理-绘制流程图

流程图是按公司的业务或者用户在一个产品中的进度或者使用的先后顺序进行关键节点的排列说明图&#xff0c;流程图的主要目的是为了方便创作者在梳理公司的业务流&#xff0c;或者用户在使用产品服务的时候&#xff0c;所进行的系列流程和关键节点&#xff0c;这样方便对接的同…

项目经理产品经理必看,流程图绘制Drawio

这个是用drawio绘制的技术架构流程图&#xff0c;是不是非常的简单易看&#xff01;