秘密打造「AI陶哲轩」 震惊数学圈!谷歌IMO梦之队首曝光,菲尔兹奖得主深度点评

 谷歌DeepMind正在做的,是要打造出世界上最强的AI数学家。

 Perplexity AI的CEO对此做出了大胆预测——DeepMind继续研究下去的话,应该可以搞出一个「AI陶哲轩」了!

这个预测可谓相当大胆。

要知道,陶哲轩在IMO竞赛圈,乃至整个数学界,都是传奇般的存在。

 「天才出少年」、「数学界莫扎特」,各种溢美之词放到他身上都不为过,毕竟人家首次参加IMO竞赛时只有10岁,是迄今为止最年轻的参赛者。

10岁铜牌、11岁银牌、12岁金牌,一路高歌猛进,他又成为了IMO史上最年轻的金牌得主。

图片

AI大佬能够做出此类预测,正是基于谷歌DeepMind两大AI——AlphaProof+AlphaGeometry 2,上周在IMO 2024竞赛中取得了卓越的成绩。

6道题目中,它们一同做对4道,距金牌仅有一分之差(获得28分)。

 

AlphaGeometry 2效果愈加炸裂,竟可以在短短19秒里,破解了一道几何题目。

图片

图片

然而,这个消息至今余波未平。许多AI界和数学界的大佬们,纷纷给出了自己的思考和感悟。

数学大佬怎么看?

这边隔空被cue的陶哲轩发表了自己的看法。

但人家并不在意所谓的「AI陶哲轩」,而是延续了自己以往的关注点——分析AI和数学将怎样共同发展。

图片

过去几周我一直在旅行,还没有时间完全消化这个消息……但可以在此记录一些初步印象

陶哲轩首先承认,DeepMind做出了一项伟大的工作,拓宽了AI辅助/全自动化方法在基准挑战上的能力边界,再次颠覆了我们的预期。

具体而言,IMO级别的几何问题,对专门的AI工具来说已经是实际可解的问题。

现在看来,能够形式化的,且可以用强化学习过程找到形式化证明的IMO问题,至少在某种程度上都可以被AI攻克(尽管目前每个问题都需要相当程度的算力,以及形式化过程中的人类协助)。

这种方法带来的好处,就是让形式数学更容易自动化,从而有助于包含形式化成分(formal components)的数学研究。

特别是,如果用这种方式创建一个含有形式化证明过程的数据库,并将其公开共享,将成为非常有用的资源。

图片

DeepMind这次的研发路径很聪明,而且事后看来也很合理。他们更多基于强化学习而非大语言模型,有些秉承了AlphaGo的精神,并且非常强调形式化方法。

根据「AI效应」,一旦解释清楚其中的原理,AI就不再像是「类人智慧」的展现,但这依旧扩展了AI辅助工具的能力。

图片

「AI效应」描述一种现象:一旦AI项目取得了某些成功或进展,相关任务就不再被视为AI领域的一部分。类似的还有Tesler定理:「AI是指尚未完成的事情」

值得注意的是,AlphaProof/AlphaGeometry 2与最近获得AIMO冠军的NuminaMath模型,二者不能直接比较。

图片

NuminaMath是完全自动化的,资源效率相比DeepMind模型高了搞几个数量级,而且采用了完全不同的思路,即通过LLM生成Python代码,对数字答案进行暴力破解。

由于AIMO所有问题答案都是范围为0~999的整数,因此暴力破解是可行的,但对开放式的IMO赛题就完全不适用了。

NuminaMath也是一项非常好的工作,在数学解题的不同部分中尝试用AI协助或自动化,向我们展示了这个挑战本身的多维性质。

目前,NuminaMath这个冠军模型已经在HuggingFace上开源了7B版本。

图片

仓库地址:https://huggingface.co/AI-MO/NuminaMath-7B-TIR

与IMO打过多年交道的CMU数学教授罗博深(Po-Shen Loh)也发推表达了自己的震撼。用他的话说,这种感受和当年人们看到苏联第一颗人造卫星Sputnik的感觉是类似的。

他甚至表示,「人类文明需要进入高度戒备状态」。罗博深本人虽然一直期待这种水平的AI能够到来,但他曾经认为,至少还需要几年时间才能达到。

图片

罗博深教授的「震撼」,不仅来自于他数学家的身份,更来自于他对IMO竞赛的多年了解。

1999年,时年17岁的他首次参与IMO竞赛获得银牌,2002年就进入美国IMO国家队训练营担任助理教练,开启了自己长达21年的IMO执教生涯。

 

2014年,罗博深被正式任命为总教练,随后带领美国队分别在2015年、2016年、2018年和2019年赢得比赛,让1994年后将近20年没有冠军的美国IMO国家队「重回巅峰」。

由于多年执教,罗博深对竞赛的出题流程非常熟悉——IMO会专门选择非标准化问题。

出题小组的重要任务之一就是避免任何类似题目。教练们甚至会翻出一些古老又不为人知的数学竞赛,然后否决掉已经提出的类似题目。

这种题目的创新性让很多人类学生都很难上手,因为学生们也习惯于从例题中学习,记住解题步骤,用来解决相似题目。

以本届IMO的6道题目为例,它们远远超出了任何课程标准。

图片

解决这些题目最困难的部分不在于计算,而是需要找到一条解题路径。很多人即使有一整年的时间思考也只能拿到零分。

因此,DeepMind模型在IMO上的胜利和GPT-4在标准化测试上通过「模式匹配」拿到的高分有完全不同的意义。

尽管AI花费的时间远远超出比赛规定,但实现软硬件的加速只是时间问题,模型能够解决这些问题本身就是一个重大进步。

罗博深教授长期致力于数学教育,因此他也会进一步思考——AI具有如此强大的数学能力,这对我们意味着什么?我们能做些什么?

他认为,AI越强大,大幅提升人类智慧就越为重要。

首先就是对就业动态产生的影响。

AI出现以前,个别有非凡能力的人不会真正损害你的就业,因为这样的人终究只是少数。即使这些天之骄子会占据一些职位,余下的工作依旧很多。

然而,一旦AI的能力超越人类,它就可以通过大规模复制,从而夺走所有工作。这与之前的逻辑完全不同。

AlphaProof/AlphaGeometry 2在IMO中的表现已经告诉我们,AI具备了发现新事物的能力(这是最有价值的技能之一),因此整个教育方法都需要快速变革。

无法否认的是,当前的教育结构很大程度上受到考试的影响,为了测试学生在预定义标准上的熟练程度。

然而,现在的每个人都必须学会如何解决从未见过的新问题,否则就无法跟上AI的步伐。

此外,技术越强大,我们就越需要努力保持人类文明中的人性。

这意味着,我们需要建立一个让人们共同合作、互相支持的社区,而不是在「丛林竞争」中互相争斗。分裂则亡。

对我来说,这与构建人类的分析性才能密切相关,因为培养一个试图击败他人而非帮助他人的天才,很可能是有害的。

以上这些观点并非罗博深教授的「纸上谈兵」,也不仅仅停留在提出问题或理念的层面。基于数学教育领域十多年的工作经验,他对此有深入的思考,并试图提出了启发性的解决方案。

数学大佬怎么看?

在谷歌DeepMind伦敦总部的实验室,研究团队在庆祝每次AI里程碑时,内部承袭着一个传统——敲响大锣。

2016年,AlphaGo在围棋比赛中表现优异,锣声响起;2017年,当AlphaZero征服国际象棋时,锣声再次回荡。

每次一敲锣,都代表着算法击败了人类冠军。

就在AlphaProof+AlphaGeometry 2夺得了奥赛IMO 2024银牌的那天,伦敦总部再次敲响了铜锣。

图片

纽约时报的这篇报道深入团队内部,让我们对这位AI数学家有了更深一层的了解。

文章表示,AI越来越擅长数学,并且很快就会成为人类最值得合作的伙伴。

图片

DeepMind数学计划负责人之一Alex Davies表示,这是AI在数学推理方面,取得的重大突破。

7月11日-22日,IMO 2024在伦敦以西约100英里的巴斯大学举行,被公认为是世界上「最聪明的数学天才」参加的顶级数学竞赛。

图片

人类选手(来自108个国家的609名高中生)赢得了58枚金牌、123枚银牌和145枚铜牌。

谷歌AI在答题的过程中,解决了6个问题中的四个,总得分28分,与金牌仅差一分。

对此,谷歌DeepMind研究副总裁Pushmeet Kohli在接受采访时表示,「这并不完美,我们没有解决所有问题。我们的目标是做到完美」。

图片

尽管如此,Kohli博士将这一结果描述为一种「相变」(phase transition),一种革命性的变化,即在数学中使用AI,以及AI系统进行数学运算的能力。

DeepMind实验室邀请了2位独立专家,来评判AI的表现——剑桥大学数学家、菲尔兹奖得主Timothy Gowers,以及软件开发人员Joseph Myers。

图片

他们都曾是IMO竞赛获奖者,纷纷表示对这次AI的表现印象深刻。

过去25年来,Gowers一直对AI与数学结合感兴趣,他认为,「AI已经找到了解决问题的神奇钥匙」。

铜锣敲响

每年IMO,人类选手们都要经过几个月的严格训练,去参加两场奥数考试(共9小时)。

每天仅需做答三题,涉及了代数、组合学、几何和数论。

与此同时,AI数学家也在伦敦实验室里,埋头苦干。

研究科学家David Silver说,「每次系统解决一个问题,我们就敲锣庆祝」。

IMO结果公布那天,中国队中的Haojia Shi是唯一一位获得满分(42分)的参赛者,6道题目分别拿了7分满分成绩。

图片

总榜成绩中,美国队以192分获得第一名,中国以190分获得第二名。

图片

这边,谷歌AI成功破解了4道题——2道代数题、1道几何题和1道数论题,得分28分。它在另外两个组合学问题上,失败了。

与人类选手不同的是,AI答题完全不限时间。

对于某些问题,AI需要长达三天的时间,而学生在每场考试中仅有4.5小时。

Silver博士解释道,「对于谷歌DeepMind团队来说,速度是整体成功的次要因素。因为这实际上只是取决于算力的投入」。

图片

他继续称,「我们能够达到这个阈值,能够解决这些问题,这代表了数学史上的一个重大变化。但也希望能成为一个转折点,让计算机从只能证明简单问题,到证明人类无法证明的问题」。

两大团队,两个AI数学家

几年来,将AI应用于数学一直是DeepMind使命的一部分,而且通常是与世界级的研究数学家合作。

Davies博士表示,数学需要抽象、精确和创造性推理的有趣结合。

他指出,部分原因是这种能力组合,使数学成为达到所谓的AGI这一最终目标的良好试金石,而且这也是OpenAI、Meta AI、Xai等公司一直在追逐的目标。

因此,奥林匹克数学题已成为公认的一个基准。

今年年初,谷歌DeepMind首次发布AlphaGeometry,解决了奥林匹克抽样的几何问题,水平相当于人类金牌获奖者。

图片

论文地址:https://www.nature.com/articles/s41586-023-06747-5

首席研究员Thang Luong在电子邮件中表示,AlphaGeometry2在解决IMO问题上已经超过了金牌得主。

图片

借着这股势头,谷歌DeepMind为这项挑战组建了两个团队:

一个由伦敦的研究工程师Thomas Hubert领导,另一个团队由位于美国Mountain View实验室的Luong博士和Quoc Le领导,每个团队约有20名研究人员。

Luong博士领导的团队名为「超人类推理团队」,目前为止招募了十几名IMO奖牌获得者。

图片

谷歌DeepMind超人类推理团队(superhuman reasoning team)

他自豪地表示,这是目前为止,谷歌内部「IMO密度最高」的团队。

图片

大约20年前,我全身心投入奥数竞赛,在全国获得银牌(当时排名第8),但我没能进入2005年的 IMO比赛.....,时光荏苒,我非常高兴谷歌最新的AI系统(AlphaGeometry2+AlphaProof)帮我实现了「赢得」IMO奖牌的梦想!

时隔半年,谷歌推出迭代后的AlphaGeometry 2,仅用了19秒,解决了IMO 2024的几何问题。

另一波在伦敦总部的团队,由Hubert领队,开发了全新模型AlphaProof。它具有可比性,更加通用,目标是为了解决更广泛的数学问题。

背后算法揭秘

简言之,AlphaGeometry和AlphaProof利用了多种不同的AI技术。

非形式推理系统

AlphaProof是用自然语言表达的非形式推理系统(informal reasoning system)。

它基于谷歌Gemini打造,使用已公开的问题、证明等英文语料库作为训练数据。

非形式系统擅长识别模式,以及提出下一步建议。而且它富有创造性,以一种自然语言可以理解的方式谈论想法。

当然,LLM倾向于编造内容,这对诗歌可能行得通(也可能不是),但对数学肯定不行。

在数学这种情况下,大模型似乎表现出了克制。但这并不是说,它完全免疫于「幻觉」,但频率有所降低。

图片

形式推理系统

AlphaGeometry是基于逻辑并用代码表达的形式推理系统。

它使用了名为Lean的定理证明器和证明助手软件。该软件可以确保,如果AI认为证明是正确的,那么它确实是正确的。

Hubert表示,「我们可以准确地检查证明是否正确,因为每一步都保证在逻辑上是合理的」。

而另一个关键组件是,AlphaGo和AlphaZero谱系中的强化学习算法。

图片

谷歌DeepMind负责强化学习的副总裁Silver博士说,「AI可以自主学习,无限扩展」。

「由于RL算法不需要要老师,所以它可以不断地学习,一直学习,直到最终它能够解决人类可以解决的最困难的问题」。

这也是AlphaZero所经历的现实,从0开始学习,仅通过玩游戏,在不到一天时间内,就能重新发现国际象棋中的所有知识。

在大约一周的时间,它便发现了围棋的所有知识。所以我们想,把这个AI能力应用到数学中。

数学家,会被AI取代吗?

菲尔兹奖得主Gowers并不担心AI数学家,带来的长期后果。

我们可以假想这样一种情况,数学家基本上没有什么可做的了。如果计算机在数学家目前做的所有事情上都变得更好、更快,那就会是这种情况。

不过,在AI能够进行研究级数学之前,似乎还有很长的路要。

他补充道,「如果谷歌DeepMind能至少解决一些棘手的IMO问题,那么一个有用的研究工具就不会太遥远」。

而一个真正熟练的AI工具,可能会让数学更容易上手,加速研究过程,还能让数学家跳出固有思维。

最终,它甚至可能提出引起共鸣的新奇想法。

参考资料:

https://x.com/AravSrinivas/status/1817422458540155334

https://x.com/PoShenLoh/status/1816500461484081519

https://mathstodon.xyz/@tao/112850716240504978

https://www.nytimes.com/2024/07/25/science/ai-math-alphaproof-deepmind.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/389420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ADI - 通过5 V至24 V输入提供双极性、双向DC-DC流入和流出电流

大部分电子系统都依赖于正电压轨或负电压轨,但是有些应用要求单电压轨同时为正负电压轨。在这种情况下,正电源或负电源由同一端子提供,也就是说,电源的输出电压可以在整个电压范围内调节,并且可以平稳转换极性。例如&a…

【CORS 报错】跨域请求问题:CORS 多种环境下的解决方案

🔥 个人主页:空白诗 文章目录 一、CORS错误的常见原因二、解决方案1. Vue3 Vite项目下的解决方案创建Vue3 Vite项目配置Vite的代理发送请求 2. jQuery项目下的解决方案使用CORS请求头使用JSONP 3. 其他环境下的解决方案使用服务器端代理设置CORS头使用…

“再来一单“业务功能开发

文章目录 概要整体架构流程技术细节小结 概要 再来一单”功能常见于餐饮、零售、外卖等行业,主要目的是为了简化用户的重复购买流程,提高用户体验和效率。 需求分析以及接口设计 再来一单就是将原订单中的商品重新加入到购物车中,所以本质上是"增…

java之WIFI信号模块

开发步骤分为以下几点&#xff1a; 1.在 AndroidManifest 中声明相关权限&#xff08;网络和文件读写权限&#xff09; 声明权限: <uses-permission android:name"android.permission.ACCESS_WIFI_STATE" /> <uses-permission android:name"android.…

matlab y=sin(x) - 2/π*(x)函数绘制

[TOC](matlab ysin(x) - 2/π*(x)函数绘制) ysin(x) - 2/π*(x) clc; clear; close all; x_axis_length 10; y_axis_length 10; % 创建 x 值向量 x_positive linspace(0.1, 10, 1000); % 正半轴上的 x 值 x_negative linspace(-10, -0.1, 1000); % 负半轴上的 x 值% 计算…

前端新手小白的React入坑指南

有个小伙伴跟我说&#xff0c;已经毕业了&#xff0c;开始实习了。但公司现在用的还是Vue&#xff0c;领导说是过段时间让他用React做项目&#xff0c;先自己学习起来。 我给他找了一些文档&#xff0c;顺便着呢&#xff0c;反正自己也写博客&#xff0c;自己也写一份吧&#x…

华为视觉智驾来了!买车千万不要乱选了

文 | AUTO芯球 作者 | 雷慢 华为又偷偷地憋大招了&#xff0c; 你们看&#xff0c;余承东昨天天悄咪咪地发了条微博宣布&#xff0c; 智界S7Pro版开始首发搭载华为视觉智驾方案&#xff0c; 也就是华为ADS基础版&#xff0c;车也陆续交给了车主们&#xff0c; 那问题来了&a…

江科大/江协科技 STM32学习笔记P13

文章目录 TIM定时中断1、TIM简介计数器PSC预分频器&#xff08;Prescaler&#xff09;ARR自动重装寄存器&#xff08;Auto Reload Register&#xff09; 2、定时器类型基本定时器主模式触发DAC 通用定时器高级定时器 3、定时器原理定时中断基本结构预分频器时序计数器时序RCC时…

从零开始掌握tcpdump:参数详解

Linux tcpdump命令详解 1. 语法 tcpdump [-adeflnnNOpqStvxX] [-c <数据包数目>] [-dd] [-ddd] [-F <表达文件>] [-i <网络界面>] [-r <数据包文件>] [-s <数据包大小>] [-tt] [-T <数据包类型>] [-vv] [-w <数据包文件>] [输出数…

【办公软件】Office 2019以上版本PPT 做平滑切换

Office2019以上版本可以在切页面时做平滑切换&#xff0c;做到一些简单的动画效果。如下在快捷菜单栏中的切换里选择平滑。 比如&#xff0c;在两页PPT中&#xff0c;使用同一个形状对象&#xff0c;修改了大小和颜色。 选择切换为平滑后&#xff0c;可以完成如下的动画显示。 …

Mysql环境部署

一、centos7 中安装 mysql 8.x 1、下载安装包 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.33-1.el7.x86_64.rpm-bundle.tar 2、解压 tar -zxvf mysql-8.0.33-1.el7.x86_64.rpm-bundle.tar 3、卸载mariodb yum remove -y *mariadb* 4、依次安装依赖包…

构建积极心理学资源站:从零到一的旅程

自己搭建的心理学资源站 积极心理学网站&#xff1a;致力于推动积极未来 欢迎来到kuakua.app&#xff0c;这是一个致力于积极心理学的资源站。 作为一个独立开发者&#xff0c;我与一些热爱心理学的学生合作&#xff0c;创建了这个网站。 我们的目标是通过分享心理学知识和资源…

【云原生】Prometheus监控Docker指标并接入Grafana

目录 一、前言 二、docker监控概述 2.1 docker常用监控指标 2.2 docker常用监控工具 三、CAdvisor概述 3.1 CAdvisor是什么 3.2 CAdvisor功能特点 3.3 CAdvisor使用场景 四、CAdvisor对接Prometheus与Grafana 4.1 环境准备 4.2 docker部署CAdvisor 4.2.2 docker部署…

vulnhub靶场serial-php渗透(蜥蜴细!)

目录 一、信息收集 1.探测主机存活&#xff08;目标主机IP地址&#xff09; 2.访问web服务 3.后台目录和端口扫描 4.解析bak.zip源码 二、漏洞利用 1.构造payload 2.通过bp的repeater模块 3.get shell 4.获取反弹shell 三、提升权限 1. 查看系统版本&#xff0c;内核…

MySQL数据库忘记密码,怎么重新修改密码?

1、停止MySQL数据服务 systemctl stop mariadb 2、跳过权限表检查并启动MySQL mysqld_safe --skip-grant-tables& 使用mysqld_safe --skip-grant-tables&命令后&#xff0c;不需要密码也可以进去MySQL&#xff0c;随便输入密码也是可以进入MySQL的&#xff0c;因为这个…

Traefik系列

一、入门Traefik系列——基础简介 官方文档 https://doc.traefik.io/traefik/[1] 简介 Traefik是一个为了让部署微服务更加便捷而诞生的现代HTTP反向代理、负载均衡工具。它支持多种后台 (Docker, Swarm, Kubernetes, Marathon, Mesos, Consul, Etcd, Zookeeper, BoltDB, Re…

CentOS7.9 利用 KubeKey 扩容 Kubernetes v1.26 Worker 节点实战

转载&#xff1a;CentOS7.9 利用 KubeKey 扩容 Kubernetes v1.26 Worker 节点实战 知识点 定级&#xff1a;入门级 KubeKey 安装部署 KubeSphere 和 Kubernetes KubeKey 定制化部署集群 KubeSphere v3.4.0 功能概览 Kubernetes 基本操作 CentOS 系统内核升级 演示服务器配…

Python爬虫:下载人生格言

Python爬虫:下载人生格言 爬取网页 将这些格言下载存储到本地 代码: import requests #导入requests库&#xff0c;用于提取网页 from lxml import etree#导入lxml库&#xff0c;用于Xpath数据解析#请求头 header{ user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) A…

游戏加速器推荐 网游加速器排行榜

游戏加速器推荐&#xff0c;玩游戏用什么加速器&#xff01;我得给你推荐一款我常用的。首先呢&#xff0c;就是深度加速器&#xff0c;它针对目前手游网游的游戏加速效果特别棒&#xff0c;而且界面也很友好。 另外&#xff0c;还有深度加速器&#xff0c;这款加速器不仅支持国…

【信创】Linux操作系统上使用命令查看设备序列号

原文链接&#xff1a;【信创】Linux操作系统上使用命令查看设备序列号 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于在信创操作系统上如何查看设备序列号的文章。在进行设备管理、维护和售后服务时&#xff0c;设备序列号是一个非常重要的信息。本文将详细介绍…