超级编程AI登上Science封面!AlphaCode编程大赛卷趴一半程序员

【导读】在编程比赛中达到人类水平的AlphaCode,再登Science封面。

这个12月,正当OpenAI的ChatGPT势头正旺时,那个曾经卷趴一半程序员的AlphaCode登上Science封面了!

论文链接:https://www.science.org/doi/10.1126/science.abq1158

说到AlphaCode,想必大家并不陌生。

早在今年2月,它就在著名的Codeforces上,悄悄地参加了10场编程比赛,并一举击败了半数的人类码农。

卷趴一半码农

我们都知道,程序员中非常流行这样一种测试——编程竞赛。

在竞赛中,主要考察的就是程序员通过经验进行批判性思维,为不可预见的问题创建解决方案的能力。

这体现了人类智能的关键,而机器学习模型,往往很难模仿这种人类智能。

但DeepMind的科学家们,打破了这一规律。

YujiA Li等人,使用自监督学习和编码器-解码器转换器架构,开发出了AlphaCode。

AlphaCode的开发工作,还是在居家期间完成的

虽然AlphaCode也是基于标准的Transformer编解码器架构,但DeepMind对它进行了「史诗级」的强化——

它使用基于Transformer的语言模型,以前所未有的规模生成代码,然后巧妙地筛出了一小部分可用的程序。

具体步骤为:

1)多问询注意力:让每个注意力块共享键和值的头,并同时结合编码器-解码器模型,使AlphaCode的采样速度提高了10倍以上。

2) 掩码语言建模(MLM):通过在编码器上加入一个MLM损失,来提高模型的解决率。

3)回火:让训练分布更加尖锐,从而防止过拟合的正则化效应。

4)值调节和预测:通过区分CodeContests数据集中正确和错误的问题提交,来提供一个额外的训练信号。

5)示范性异策略学习生成(GOLD):通过将训练的重点放在每个问题最可能的解决方案上,让模型为每个问题产生正确方案。

结果嘛,大家都知道了。

凭借着1238的Elo得分,AlphaCode让自己在这10场比赛中的排名达到了前54.3%。放眼之前的6个月,这一成绩更是达到了前28%。

要知道,为了达到这个排名,AlphaCode必须「过五关斩六将」,解决融合了批判性思维、逻辑、算法、编码和自然语言理解相结合的种种新问题。

从结果来看,AlphaCode不仅解决了CodeContests数据集中29.6%的编程问题,而且其中有66%是在第一次提交时解决的。(总提交次数限制在10次)

相比起来,传统的Transformer模型求解率都比较低,只有个位数。

对于这个结果,就连Codeforces创始人Mirzayanov都非常惊讶。

毕竟,编程比赛考验的是发明算法的能力,这一直是AI的弱项,人类的强项。

我可以肯定地说,AlphaCode的结果超出了我的预期。开始我持怀疑态度,因为即使在简单的竞赛问题中,不仅需要实施算法,而且还需要发明算法(这是最困难的部分)。AlphaCode已经让自己成为很多人类的强劲对手。我迫不及待地想知道,未来会发生什么!

——Mike Mirzayanov,Codeforces 创始人

所以,AlphaCode这是能抢程序员的饭碗了?

当然还不行。

AlphaCode还只能完成简单的编程任务,如果任务变得更复杂,问题更加「不可预见」,只会将指令翻译成代码的AlphaCode就束手无策了。

毕竟,1238的得分从某种角度来说,也就相当于一个初学编程的中学生菜鸟的水平。这个level,还威胁不到真正的编程大牛。

但毫无疑问的是,这类编码平台的开发,会对程序员的生产力产生巨大的影响。

甚至,整个编程文化都可能会被改变:或许,以后人类只要负责制定问题就可以,而生成和执行代码的任务,就可以交给机器学习了。

编程竞赛有啥难的?

我们知道,虽然机器学习在生成和理解文本方面取得了巨大进步,但是大部分AI目前仍然局限于简单的数学和编程问题。

它们会做的,更多是检索和复制现有的方案(这一点相信最近玩过ChatGPT的人都深有体会)。

那么,让AI学习生成正确的程序,为什么这么困难呢?

1.  要生成解决指定任务的代码,就需要在所有可能的字符序列中搜索,这是一个海量的空间,而其中只有一小部分对应有效的正确程序。

2. 、一个字符的编辑,可能会完全改变程序的行为,甚至会导致崩溃,而且每个任务都有许多截然不同的有效解决方案。

对于难度极高的编程比赛,AI需要理解复杂的自然语言描述;需要对以前从未见过的问题进行推理,而不是简单地记住代码片段;需要掌握各种算法和数据结构,并精确地完成可能长达数百行的代码。

此外,为了评估自己生成的这些代码,AI还需要在一套详尽的隐藏测试上执行任务,并且检查执行速度和边缘情况的正确性。

(A)问题1553D,中等难度评分为1500;(B)AlphaCode生成的问题解决方案

就拿这个1553D问题来说,参赛者需要找到一种方法,使用一组有限的输入将一串随机重复的s和t字母转换成另一串相同的字母。

参赛者不能只是输入新的字母,而必须使用「退格」命令删除原始字符串中的几个字母。赛题具体如下:

对此,AlphaCode给出的解决方案如下:

并且,AlphaCode的「解题思路」也不再是黑箱,它还能显示代码和注意力高亮的位置。

AlphaCode的学习系统

参加编程比赛时,AlphaCode面临的主要挑战是:

(i)需要在巨大的程序空间中搜索,(ii)只能获得约13,000个用于训练的示例任务,以及(iii)每个问题的提交数量有限。

为了应对这些问题,AlphaCode整个学习系统的构建分为三个环节,预训练、微调、采样与评估,如上图所示。

预训练

在预训练阶段,利用在GitHub收集的715GB人类码农的代码快照,对模型进行预训练,并使用交叉熵next-token预测损失。在预训练过程中,随机地将代码文件分成两部分,将第一部分作为编码器的输入,并训练模型去掉编码器生成第二部分。

这种预训练为编码学习了一个强大的先验,使随后的特定任务的微调能够在一个更小的数据集上进行。

微调

在微调阶段,在一个2.6GB的竞争性编程问题数据集上对模型进行了微调和评估,数据集是DeepMind创建的,命名为CodeContests公开发布。

CodeContests数据集中包括问题以及测试案例。训练集包含13,328个问题,每个问题平均有922.4个提交答案。验证集和测试集分别包含117个和165个问题。

在微调过程中,将自然语言的问题陈述编码为程序注释,以使其看起来与预训练期间看到的文件更加相似(其中可以包括扩展的自然语言注释),并使用相同的next-token预测损失。

采样

为了选出10个最好的样本进行提交,采用过滤和聚类的方法,利用问题陈述中包含的例子测试来执行样本,并删除未能通过这些测试的样本。

通过过滤筛除了近99%的模型样本,再对剩下的候选样本进行聚类,在一个单独的transformer模型生成的输入上执行这些样本,并将在生成的输入上产生相同输出的程序归为一类。

然后,从10个最大的聚类中各挑选一个样本进行提交。直观地说,正确的程序行为相同,并形成大的聚类,而不正确的程序的失败方式是多种多样的。

评估

上图所示为在10@k指标上,模型性能是如何随着更多的样本量和计算量而变化的。从对采样结果的性能评估上看,研究人员得出了以下4点结论:

1. 解决率随着更大的样本量而呈对数线性扩展;

2. 更好的模型在比例曲线上有更高的斜率;

3. 解决率与更多的计算量呈对数线性比例;

4. 样本选择对解决率的扩展至关重要。

纯粹的「数据驱动」

毫无疑问,AlphaCode的提出,代表了机器学习模型在发展上已经迈出了实质性的一步。

有趣的是,AlphaCode并不包含关于计算机代码结构的明确的内置知识。

相反,它依靠一种纯粹的「数据驱动」方法来编写代码,也就是通过简单地观察大量现有代码来学习计算机程序的结构。

文章地址:https://www.science.org/doi/10.1126/science.add8258

从根本上说,使AlphaCode在竞争性编程任务上胜过其他系统的原因归结为两个主要属性:

1. 训练数据

2. 候选解决方案的后处理

但计算机代码是一个高度结构化的媒介,程序必须遵守定义的语法,并且必须在解决方案的不同部分中产生明确的前、后条件。

而AlphaCode在生成代码时采用的方法,却和生成其他文本内容时完全一样——一次一个token,并且只在整个程序写完后检查程序的正确性。

鉴于适当的数据和模型的复杂性,AlphaCode可以生成连贯的结构。然而,这个顺序生成程序的最终配方被深埋在LLM的参数中,难以捉摸。

不过,无论AlphaCode是否真的能「理解」编程问题,它的确在代码竞赛方面达到了人类的平均水平。

「解决编程竞赛的问题是一件非常困难的事情,需要人类具有良好的编码技能和解决问题的创造力。AlphaCode能够在这一领域取得进展,给我留下了深刻的印象,我很高兴看到,该模型如何利用其语句理解来生成代码,并引导其随机探索以创建解决方案。」

                  ——Petr Mitrichev,谷歌软件工程师和世界级竞技程序员

AlphaCode在编程竞赛中名列前54%,展示了深度学习模型在需要批判性思维的任务中的潜力。

这些模型优雅地利用现代机器学习,将问题的解决方案表达为代码,这就回到几十年前AI的符号推理根源。

而这,仅仅是一个开始。

在未来,还会诞生更多解决问题的强大AI,或许这一天已经不远了。

参考资料:

https://www.science.org/doi/10.1126/science.add8258

https://www.science.org/doi/10.1126/science.abq1158

https://www.deepmind.com/blog/competitive-programming-with-alphacode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55454.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

文章目录 主要解决问题采用什么方法Prompt adaptationLLM approximationLLM cascade 实验结论讨论与展望 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 主要解决问题 这篇文章主要是要解决如何降低调用大语言模型的成本(Chat…

智见|黄铁军:未来的大模型生态中将会只有少数赢家

2023智源大会可谓群星璀璨。中外200余位人工智能顶级专家参会,人工智能领域最关键的人物、机构悉数亮相。 全面、专业、前沿,会场上大咖们观点激荡、多元碰撞,会场下观众们兴奋异常、座无虚席。 会上,北京智源人工智能研究院院长黄…

开放丨Kaldi语音识别理论与实践

语音识别是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都…

【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组、快商通、语音之家、北京希尔贝壳科技有限公司共同主办的【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍,将于2022年10月9日18:30-19:30线上直播。 沙…

说话人识别(speaker Recognition/Verification)简介

1.分类 2.研究方向 说话人识别研究方向主要有三个: 语音信号参数化:即提取音频特征spectral features,目前主流研究都采用MFCCs系数,以及其Δ和ΔΔ系数(即时间上的一阶导数和二阶导数)。什么是MFCC系数以及如何提取可以看这个…

听障人士亲述:我们在VRChat用手语交流,成员规模5000人

如果你在B站上搜索VRChat,排在前面的热门视频几乎都是与老外聊天的内容。除了练习语言、交文化流外,你还能在VRChat上遇到不少哇哇乱叫的小孩。作为一款VR社交应用,除了有趣的小游戏外,说话聊天也是VRChat关键的玩法之一。 而有这…

AI应用系列--- Talking Photo 会说话的照片

利用HeyGen的服务可以生成有趣的Talking photo,方法有二: 1、访问HeyGen - AI Video Generator 网站,登录后即可根据提示或者案例生成talkingphoto 2、是使用HeyGen的Discord​​​​​​机器人 Discord​​​​​​机器人:http…

php 判断国际手机号码格式,国际短信验证码接口_国际验证码接口_国际短信API接口_国际短信API文档_...

国际短信 国际验证码API接口文档下载: 点击下载 1、概要 1.1 文档说明 本文档主要提供给达信通的用户对接接口的使用说明,开发者可以利用达信通提供的 HTTP 接口,调用达信通的国际验证码服务。 1.2 接口内容 本文档包含国际短信发送、余额查…

kaptcha制作验证码的方法

com.github.axet.kaptcha制作验证码的方法 导入jar包com.github.axet生成法 ①导包 <!-- 验证码 --><dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version></depend…

kaptcha 验证码使用

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/49800115 未经博主允许不得转载。 博主地址是&#xff1a;http://blog.csdn.net/freewebsys 1&#xff0c;关于 验证码是做互联网必须做的。 目前都是用的第三方库。Kaptcha已经迁移到github项目了。 …

使用kaptcha生产纯数字验证码

使用kaptcha生产纯数字验证码录 1引入依赖2编写容器配置类3生产验证码工具类4控制层逻辑5登陆页面设置6 访问你的登录接口测试 1引入依赖 <!-- 验证码 依赖--><dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactI…

Kaptcha验证码的使用

Java具体学习内容&#xff0c;请移至&#xff1a; JAVA每天进步一点点 验证码的作用 验证码在我们的生活中可谓是随处可见&#xff0c;用户校验、用户登录…&#xff0c;有时候我们觉得验证码很麻烦&#xff0c;太过于繁琐&#xff0c;那么为什么还要使用验证码呢&#xff1f;…

五音不全?手把手教你用自己声音唱任何歌;最详细的Auto-GPT整理;4月AI绘画模型推荐;HayoAI平台简直太酷了 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 『ChatGPT Code Interpreter Magic』魔法&#xff01;离谱&#xff01;正在怀疑人生… OpenAI 近期面向部分用户发放了 Code Interp…

一个美国人到中国当产品经理的心得:中国App设计真好!

TO 导读&#xff1a;应用软件层出不穷&#xff0c;各个国家的人为自己生活的便利设计出各款的应用。然而&#xff0c;同样的应用&#xff0c;是否会因为中西方文化的差异&#xff0c;或者是生活方式的不同&#xff0c;导致相同应用的设计有所不同吗&#xff1f;是的&#xff0c…

一款基于ethereum以太链的手机app应用status.im

2019独角兽企业重金招聘Python工程师标准>>> Status.im开发平台介绍 https://status.im/ 一款集成了ethereum钱包&#xff0c;区块链聊天IM和Dapp分发市场功能的以太链轻量app&#xff08;light client&#xff09;。app目前还在公开测试中。最主要的是&#xff0c;…

原生开发IM即时通讯APP安卓iOSPCweb四端齐全

技术开发语言&#xff1a; 后台管理端&#xff1a;Java、Mongodb数据库 安卓端&#xff1a;Java iOS端&#xff1a;obje-ctive-C PC端&#xff1a;Typescri-pt web端&#xff1a;HTML 功能简单介绍&#xff1a; 单聊&#xff1a;文字&#xff0c;语音&#xff0c;音视频…

人工智能安全框架概述

人工智能安全问题与研究 在自动驾驶、客服机器人等人工智能应用中发生了一系列安全事件&#xff0c;并引发了人们对人工智能应用前景的担忧&#xff0c;去年爆火的Chatgpt也有在人的引诱下发生了“自己出逃的想法”&#xff0c;这种种现象都显现出需要对人工智能安全的问题研究…

chatgpt赋能python:Python建立长连接:实现高效网络通信的解决方案

Python建立长连接&#xff1a;实现高效网络通信的解决方案 在现代网络应用中&#xff0c;大多数客户端和服务器之间都采用长连接通信。长连接具有一些显著的优点&#xff0c;例如减少通信开销、降低延迟、提高服务器吞吐量等。本文将介绍长连接的基本原理和Python实现长连接的…

一个POC的诞生,再见 ,脚本小子

hello&#xff0c;大家好我是你们的坤哥&#xff0c;聊聊安全绕不开的话题POC&#xff08;漏洞概念验证&#xff09;&#xff0c;只知道拿着工具扫的你&#xff0c;尝试过自己写POC吗&#xff1f; 看坤哥极限拉扯你和大手子之间的差距。 配合B站视频观看更佳&#xff1a; PO…

重磅!!即日起,图观引擎正式开放注册!

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 图观引擎 自2021年5月 上线内测 历经数千名用户的测试验证和不断的升级迭代 今天终于迎来了好消息&#xff01;&#xff01; 即日起 图观 数字孪生应用开发引擎 正式开放注册 无需内测邀请码 面向所有人开放 公有云 数字…