ChatGPT编程准确率暴降13%!UIUC南大新基准让AI代码现原形了

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

用ChatGPT写代码,已经是不少程序员的常规操作了。

8f9603ad89c7790692b83393f9a9307e.png

“至少提速3~5倍”

但你有没有想过,ChatGPT生成的代码,有不少只是“看起来准确”而已?

来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明:

ChatGPT和GPT-4生成代码的准确率,比之前评估的至少要降低13%

0e47b40acf10b52255e7d0f557470b07.png

有网友感叹,太多ML论文都在用一些有问题或有局限性的基准来评估模型,来短暂地达到“SOTA”,结果换个测评方法就现出原形了。

9101c37a0dd5d1f6a05ffa33f3ea42e1.png

还有网友表示,这也说明大模型生成的代码仍然需要人工监督,“AI写代码的黄金时间还没到呢”。

7213dd1c9c7df6d1226bdf1492570c64.png

所以,论文提出了一种怎样的新测评方法?

给AI代码考题加大难度

这个新方法名叫EvalPlus,是一个自动化代码评估框架。

具体来说,它会通过改进现有评估数据集的输入多样性问题描述准确性,来将这些评估基准变得更严格

一方面是输入多样性。EvalPlus会先根据标准答案,用ChatGPT生成一些种子输入样例(虽然要测ChatGPT的编程能力,但用它生成种子输入似乎也不矛盾doge)

随后,用EvalPlus改进这些种子输入,将它们改得更难、更复杂、更刁钻。

另一方面是问题描述准确性。EvalPlus会将代码需求描述改得更精确,在约束输入条件的同时,补充自然语言问题描述,以提高对模型输出的精确度要求。

6264ee791e7d97447be70c43bb2e8b44.png

这里,论文选择了HUMANEVAL数据集作为示范。

HUMANEVAL是OpenAI和Anthropic AI一起制作的代码数据集,包含164个原创编程题,涉及语言理解、算法、数学和软件面试几种类型的题目。

EvalPlus会通过改进这类数据集的输入类型和功能描述,让编程问题看起来更清晰,同时用于测试的输入更“刁钻”或是更困难。

以其中的一道求并集编程题为例,要求AI写一段代码,找出两个数据列表中的共同元素,并给这些元素排序。

EvalPlus用它来测测ChatGPT写的代码准确度。

首先用几个简单输入进行测试,发现ChatGPT能输出正确答案。但如果换个输入,就找出了ChatGPT版代码的bug:

8f3912bb42064067836d884a41cc2516.png

属实是给AI们加大了考题难度。

760eac8f995c3d7d6c070be1fc4841f8.png

基于这套方法,EvalPlus还做了一个改进版HUMANEVAL+数据集,增加输入的同时,修正了一些HUMANEVAL里面答案就有问题的编程题。

8019b2d801d270e051e69fff6e220845.png

那么,在这套“新考题”下,大语言模型们的准确率实际上要打几折?

LLM代码准确率平均降低15%

作者们测试了当前比较受欢迎的10种代码生成AI。

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

从表格中来看,经过严格测试后,这群AI的生成准确率都有所下降:

153c3c4a3fcfbc6b7153b9c392aa8346.png

这里会通过一种名叫pass@k的方法评估准确率,其中k是允许大模型给问题生成的程序数量,n是用于测试的输入数量,c是正确的输入数量:

ecad47ee79b24363ab7aead9b5fa3126.png

根据新的这套评估标准,大模型们的准确率平均下降了15%,其中比较广泛研究的CODEGEN-16B更是下降了超过18%

至于ChatGPT和GPT-4生成代码的性能,也下降了至少13%。

不过,也有网友表示,大模型生成的代码效果没那么好,已经是“众所周知的事实”了,需要研究的是“为什么大模型写的代码不能用”。

9b657d2f7e404df87485b4b924cb0ad9.png

作者介绍

共同一作Jiawei Liu,伊利诺伊大学香槟分校二年级博士生,研究兴趣是编程系统和深度学习。

共同一作Chunqiu Steven Xia,伊利诺伊大学香槟分校二年级博士生,本科毕业于多伦多大学,研究兴趣是机器学习和软件工程的交叉领域。

王宇峣(Yuyao Wang),南京大学计算机科学大三学生,研究兴趣是计算机系统的准确性、可编程性和性能。

Lingming Zhang,伊利诺伊大学香槟分校副教授,研究方向是软件工程及其与机器学习、编程语言和形式化方法(Formal Methods)的协同作用。

论文地址:
https://arxiv.org/abs/2305.01210

代码地址:
https://github.com/evalplus/evalplus

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11245.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

奇舞周刊第 487 期 可在控制流中调用!React 新 hook 尝鲜

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ 可在控制流中调用!React 新 hook 尝鲜 React 在之前的文档中提到了 Suspense for data fetching[1] 的理念,虽然在新的文档中下线了,但还是有相…

本周“AI圈”爆火的GPT神器:AutoGPT,了解一下

AutoGPT到底是什么?它是一个实验性的开源应用程序,展示了GPT-4语言模型的功能。该程序由GPT-4驱动,可以自主实现用户设定的任何目标。 AutoGPT能够根据用户需求,在用户完全不插手的情况下自主执行任务,包括日常的事件分…

360/腾讯/网易有道/CSDN版ChatGPT上线;看!AIGC艺术第一个场景落地北京;AI狂飙的时代,人还有价值吗 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『周鸿祎演示360版ChatGPT』网友取名红孩儿,全程高能 在2023数字安全与发展高峰论坛上,360创始人周鸿祎带来了…

ChatGPT为什么会颠覆内容创作成本?

前言 随着科技的发展,人工智能(AI)已经成为一个热门话题,它的出现和发展已经给人们的生活带来了巨大的变化。其中,ChatGPT是一种有前途的AI技术,它可以帮助人们自动生成文本内容,从而降低内容创…

ChatGPT知多少?小白扫盲,通俗易懂

一、ChatGPT到底是什么? ChatGPT是由OpenAI 发布的自然语言模型,它的英文全称是“Chat Generative Pre-trained Transformer”,直译过来就是作为聊天使用的生成式预训练转换器。其中,Chat代表着使用方式,GPT是OpenAI …

ChatGPT 如何让测试变得更好?

基于AI的新型语言系统ChatGPT成为全网热议的话题。它在 2022 年 11 月发布后获得了惊人的关注度。它的用户数在短短五天内就达到了 100 万。因此,这个独特的系统可以为 IT 行业提供一些特殊的东西。 谈到IT行业,软件测试是ChatGPT有望蓬勃发展的核心点之…

让Bito帮你写Mokito单元测试

前言 现在稍微大一点的公司应该都有单测覆盖率要求,比如核心工程单测覆盖率95%以上,非核心工程90%以上。单测可以降低开发错误的反馈回路,减少重复工作,提升开发效率。但是写单测对于开发来说需要额外的时间。我们可以用TestMe、…

ChatGPT帮你改进工作和生活的10种用途!

最近火爆全网的ChatGPT是一款于2022年11月30日在美国发布的聊天机器人程序,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等…

【ChatGPT实战】4.使用ChatGPT帮你制作XMind

ChatGPT不仅可以用来回答各种问题,还能帮助我们轻松地制作出清晰的思维导图!如果你像我一样曾经为制作XMind而感到头痛,那么现在就跟着我的教程一起来学习吧! 在本篇教程中,我们将学会使用ChatGPT来帮助我们制作XMind…

用chatgpt帮你写一段GEE计算森林生物量的代码,你猜结果如何?

以下是我向GPT提问后的结果: 能提供一个森林生物量估算的GEE脚本吗? 我可以提供一个基本的森林生物量估算脚本,请使用Google Earth Engine (GEE) 平台。 这是一个简单的森林生物量估算脚本,请根据自己的需求进行修改。如果有其他…

了解趋势 | 元宇宙、虚拟空间、人工智能、Web3…全球49位专家对2023最火爆科技的预测

编者按: 2022 年对科技行业来说是非常热闹的一年。 我们关注着埃隆马斯克(Elon Musk)的大戏,惊叹于生成式人工智能的创造,目睹了加密市场暴跌和 FTX 崩溃,深深凝视着元宇宙…… 2023 年最火爆的科技趋势…

丰田汽车投资人要求董事长下台

🚙 丰田电动车推广不力,股东要求董事长下台 Toyota faced down two proxy votes at its annual general meeting. In an unusual challenge to the management of a Japanese company, activist investors in America and Europe recommended voting aga…

新春伊始:从CHAT-GPT到生成式AI,人工智能新范式

2023的新春伊始,每个人都希望在新的这一年,会有更多更好的事情发生。回头看去已然过去的2022年,科技界充满波折与机遇,似乎在等待一场革命性的变革。近期人工智能研究公司OpenAI推出的聊天机器人模型CHAT-GPT不断出圈,…

5月无代码资讯 | 新加坡开发巨头Proteus-DT开创无代码战略;Gluware 在 2023 年美国商业奖中获得三项史蒂夫奖;Appy Pie 将人工智能添加到其无代码网站构建器平台

栏目导读:无代码资讯栏目从全球视角出发,带您了解无代码相关最新资讯。 Top3大事件 1、新加坡创立的开发巨头Proteus-DT开创了无代码战略,为企业改变应用程序,Web和系统开发 5月19日,Proteus-DT 宣布他们正在通过创新…

强的离谱!别玩啥Bing了!我把Google和ChatGPT4合二为一!

我们的专栏群已经有300多位小伙伴,很多同学都是小白用户,在我们的帮助下迅速掌握了如何使用GPT, 不然光注册就要卡好久!我们早起的青铜群,已经帮助了200多位同学成功升级到plus, 大家都跑步进场! 群里有一个同学一直要…

AI加持的必应,为什么还赢不了谷歌?

“少年屠龙”的故事,似乎还有些遥远。 即使有新必应的加成,微软浏览器Edge在全球市场的占有率依然不高。据Statcounter数据显示,2023年4月,Edge的市场占有率仅为4.97%。提升的速度似乎也不太理想,4月份的数据只比一年…

微软 Bing 突然爆炸级更新!无需等待人人可用,答案图文并茂,网友:逼 ChatGPT 放大招?...

往期热门文章:1、还在用 Shiro? 2、SpringBoot项目如何打包成exe应用程序? 3、MyBatis的10种精妙用法,真是妙啊! 4、发现一款好用到爆的数据库工具,被惊艳到了! 5、新来了个同事,代码…

王炸!微软Bing Chat全面开放!

大家注意:因为微信最近又改了推送机制,经常有小伙伴说错过了之前被删的文章,比如前阵子冒着风险写的爬虫,再比如一些限时福利,错过了就是错过了。 所以建议大家加个星标,就能第一时间收到推送。&#x1f44…

谷歌翻车了?微软全新Bing长啥样?

ChatGPT:Bing最近整合了OpenAI的ChatGPT技术,并吸引了不少排队申请体验增强搜索的网友。本次微软发布会将为我们介绍Bing最新突破,更好地理解用户的意图,从而挖掘更多信息,并改善搜索体验!让我们一起参与这…

ChatGPT:必应的杀手锏,还是谷歌的笑柄?

ChatGPT:必应的杀手锏,还是谷歌的笑柄? 最近,微软必应推出了一个新功能,就是集成了ChatGPT,一个基于GPT-4的聊天机器人。这个机器人可以和用户进行自然语言交流,回答各种问题,甚至生…