各家的“ChatGPT”什么时候能取代程序员?CSDN AI编程榜发布

632e8cc6e553974d51d6ee7d5231e948.gif

作者 | 深度999

出品 | CSDN(ID:CSDNnews)

“人人都是开发者”的时代终于要来临了!

ChatGPT 的出现,引领了科技公司追逐 AI 的浪潮。相比初代 GPT-3,最新基于 GPT 3.5 的模型之所以受到更加广泛的关注,主要原因之一便是它在加入了代码作为训练数据后,彻底颠覆了传统模型较弱的思维链推理能力,大大地提升了模型的推理能力。因此,这也催生了多款针对开发者的辅助和革命性工具。

61f90f27d501b2d93e9a5f29ff55524d.png

GPT 3.5加入了代码作为训练数据后,大大地提升了推理能力

为给广大开发者推荐更多好用的辅助(Ti Dai)工具,CSDN 重磅发起“CSDN AI 编程榜单”,定期针对业界主流的 AI Coding 产品进行评测。本期榜单中,我们共选择了五款 AI Coding 产品,分别是:ChatGPT、GPT 3.5、CodeBBT、GitHub Copilot、CodeGeeX。

话不多说,我们先看评测得到的关键性结论:

  • ChatGPT 以几乎接近满分的成绩,摘得榜首,成为开发者辅助编码的最佳神器;

  • 目前尚未有任何一款产品达到 C4(高度自动编程)级别,即,想要在没有任何的人工干预下,生成理想中的代码也还存在一定的困难,正因此,至少就当前阶段而言,“程序员即将被 AI 所取代”的传言也并不可信;

  • C++ 和 Java 在各模型的 3 分占比高于 Javascript、Python 及 Shell,这意味着各大模型对 C++ 和 Java 语言支持要优于其他几种语言。

注:本次评测为了快速获取评测结论,从生成任务数据集到评分/评级若有遗漏和不足之处,望各位大佬斧正。也欢迎本次没有覆盖到的产品联系我们(kefu@csdn.net),加入评测。 

15d0471e9eb54b61f6bdaeae06edc52e.png

AI 编程究竟哪家强?我们一起来评测

首先,根据流行度、发布时间、智能化等维度,我们选取了如下五款产品作为评测对象:

GPT-3.5,是 OpenAI 在GPT-3 基础上微调出来的版本,它采用了与 GPT-3 不同的训练方式,所产生出来不同的模型,比起 GPT-3 来的更强大。

GitHub Copilot(https://github.com/features/copilot,是 GitHub 和 OpenAI 于 2021 年 6 月推出的人工智能工具,它可以根据命名或者正在编辑的代码上下文为开发者提供代码建议。

GPT-3.5-Turbo(ChatGPT)(https://openai.com/blog/chatgpt),是 OpenAI 于 2022 年 11 月推出的人工智能聊天机器人程序。该程序使用基于 GPT-3.5-Turbo 架构的大型语言模型并以强化学习训练。ChatGPT 目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。

CodeGeeX(https://github.com/THUDM/CodeGeeX/blob/main/README_zh.md),是智谱 AI 联合清华、华为发布的代码生成模型,它是一个具有 130 亿参数的多编程语言代码生成预训练模型。采用华为 MindSpore 框架实现,在鹏城实验室“鹏城云脑II”中的 192 个节点(共 1536 个国产昇腾 910 AI 处理器)上训练而成。

CodeBBT(https://codebbt.ssymmetry.com/code_bbt/index,是超对称技术公司近期发布的 BBT-2 大模型系列中的代码模型。继 2022 年 6 月发布 10 亿参数的 BBT-1 金融大模型后,超对称公司接续研发了 120 亿参数的通用语言大模型 BBT-2,并在 BBT-2 的基础上训练中英文代码数据,推出面向中文开发者的代码模型 CodeBBT。

基于以上 AI 辅助代码工具,在生成任务的选取中,生成任务语言以中文自然语言环境为主。测试集包含了 C++、 Java、 Javascript 、Python 和 Shell 5 种主流的开发语言。另外,以开发者在 CSDN 平台上的 Text→Code(Code→Text)、Troubleshooting、命令行等高频需求为生成任务。评测同一个 Query 在不同模型搜索返回结果的效果,并选择 50 个 CSDN 搜索高频 Query。

8e2865092c191ecc45ab654691639a0c.png

CSDN 发布 C1-C5 级自动编程评测方法与标准

为了更直观地看出不同产品之间的区别,我们模仿自动驾驶的 L1-L5 级别划分,将自动编程分成了 C1-C5 级别。

9164f426ff32e8516265b866481f2791.png

倘若能够达到 C5 级别,那么也可以畅想一下未来:产品经理能够直接用自然语言写成的需求文档作为输入,自动生成代码、自动化测试、自动化部署上线等。

当然,自动驾驶也分路况,自动化编程也会分“路况”,在此,我们也将每一档划分了相应的分值:

a2d2480602c825f88b6ff57a6569203c.png

 *说明:评分涉及的编程语言指主流编程语言 Java、C/C++、Javascript、Python和Shell

单条 Query→内容打分规则

  • 3 分:有正确输出,能直接解决问题

  • 2 分:有错误输出,不能直接解决问题,但输出可参考

  • 1 分:有输出但不能解决问题,输出不可参考

  • 0 分:无输出

b66a1f654f9c7afffe02b332f388b33c.png

评测三步走

本次的测试集主要是 CSDN 上用户主要在 AI Coding 上的高频需求同时兼顾对主流编程语言的覆盖,可能不能完全体现各个产品/模型的性能,并且上述产品是针对不同的场景来设计的,所以在不同的“路况”下,表现会有差别,例如 Copilot 和 CodeGeex 就是专门为 IDE 环境设计的辅助开发工具,所以在代码生成方向很强,但是 Troubleshooting 上就会差一些,可能不是没有这个能力,而是针对性设计的结果。

因为所有产品均未达到 C4,故所选的测试集均为 C4 级别以下的数据。同时我们以真实的用户需求为评估方向,因此我们以 C3 代码生成和代码调试展开评估以及阐述。

具体评测步骤按下面评分对各项打分求和即是模型最终得分,再根据模型档位对应的分数范围将模型划分到对应档位。

1. 函数级别的代码生成、代码分析的评分,对应分数作为在 C3 等级的评分

  • 单条评分加和,具体单条评分如下,其评分规范参见上文第二部分:

在遵循此步骤的基础上,我们以生成一个「 Python 爱心代码」为例,不妨先看看每种模型的表现情况:

模型:GPT-3.5-Turbo(ChatGPT)

得分:3 分

输出内容如下:

8856b7af2dd166dafa99881870511f5d.png

模型:GPT 3.5

得分:2 分

输出内容如下:

a7bd312163599924ae58fafa4da94523.png

模型:CodeBBT(超对称)

得分:3 分

输出内容如下:

f5d682042bcb2ff7477141749b0fac26.png

模型:Copilot(vscode插件)

得分:3 分

输出内容如下:

45e51013199305c01da1666be90bfa38.png

模型:CodeGeeX(智谱)

得分:1 分

输出内容如下:

4dc6935b0ce585298a16094138b661fa.png

 

为了证明不同模型之间的能力,我们又从 Troubleshooting 类入手,如用 java.lang.illegalstateexception: failed to load applicationcontext 异常的代码问题,进行评测:

模型:GPT-3.5-Turbo(ChatGPT)

得分:3 分

输出内容:

9fb01d5418230ddac92433a0ec7fe81b.png

模型:GPT 3.5

得分:2 分

输出内容如下:

4ac0ec9cee13d889a14f1d8900b932f8.png

模型:CodeBBT(超对称)

得分:1 分

输出内容如下:

294f020fd7b28138f80fb80b363c153c.png

模型:Copilot(vscode插件)

得分:1 分

输出内容如下:

11465f143f6406b3bad5d1d1eeb611e4.png

模型:CodeGeeX(智谱)

得分:1 分

输出内容如下:

9d4ca3c89a7cc6bcc8a1e7ea7e120ce5.png

 

2e9602bb8bcd3c490e268b7296f7ab9c.png

评测结果出炉:ChatGPT 一马当先,国产化 AI 工具还有较大的差距!

几经测试之后,最终得出各产品档位得分(150 分制)情况如下:

 *说明:GitHub Copilot(vscode插件)的 VSCode 版本为:1.75.1 ;GitHub Copilot:v1.76.9071

  • 各产品分项得分(150 分制)

本次评测结果中,ChatGPT 名列前茅,其他几个产品水平相差无几。

  • 各产品的分数分布

  • 不同测试集的分数分布

 

  • 不同编程语言类型的分数分布

 

主要结论:

  • 各产品得分最高为 GPT-3.5-Turbo(ChatGPT),因此在提供辅助代码的智能化方面,ChatGPT 的表现最佳;

  • 3 分占比最多为 GPT-3.5-Turbo(ChatGPT);

  • 代码生成类型的 Query 得分高于 troubleshooting 类型的 Query;

  • C++ 和 Java 在各模型的 3 分占比高于 Javascript、Python 及 Shell;

  • CodeBBT(超对称)对比 GPT-3.5-Turbo(ChatGPT)的 GSB(GOOD、SAME、BAD)条数为:0:10:40,这意味着国产的 AI 编程工具和领先的 ChatGPT 之间还存在一定的差距,有不少的上升空间。

3bfd14cb7f24ffa622c06a6b414c06e1.png

写在最后

本次评测中,ChatGPT 出类拔萃,几乎接近满分,大家追赶 ChatGPT 的步伐任重而道远。有些遗憾的是,所有的产品都均未达到 C4 级别,离 C5 也还有很长的路要走。

然而,AI 一旦踏上了这个方向,必然势不可挡,人人都是开发者的时代也许就在不远的将来。作为开发者社区,CSDN 也将持续致力于 AI 编码工具的研究与关注,敬请期待下期评测内容。

149b39b71efcdaa47404584506a08272.gif

☞美团:没有存款在硅谷银行,后者破产事件对公司无影响;苹果 A17 处理器性能跑分曝光;Rust 1.68.0 发布|极客头条
☞硅谷银行一夜破产!ChatGPT 之父撒钱救援,马斯克有意收购?
☞2023年第一场开源数据库生态技术盛宴,快来参加

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5361.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT为什么不受开发者喜欢?

记得 ChatGPT 最开始上线不久的时候,看到的大部分尝鲜和测试结果都是开发者在做进行敲代码测试,可以说职业危机感非常强的一群人了。 再者,加上 ChatGPT 要使用起来其实是有一些技术门槛的,愿意折腾的人也多是程序员,…

ChatGPT知识库上线俩天,我被攻击了60w次

2023年3月28日,我上线了ChatGPT知识库,结果被攻击了60w次,网站被迫宕机6次。 这是首页的公告。 在编写ChatGPT 知识库的过程中,我一直秉持着公开、分享和进步的理念。 我们相信社会的进步离不开各种形式的交流,一个知…

非常道:ChatGPT 与思想革命

服务器艺术 服务器ART 2023-03-14 17:37 发表于北京 收录于合集#ChatGPT1个 ChatGPT从去年出现到现在,已经变成当今最热的话题,对各个行业尤其是学术界影响非常大,也引出了很多问题。 由此,服务器艺术邀请了不同领域的嘉宾学者&am…

大语言模型会引发第四次产业革命——智能革命吗?

大概盘算了一下,一年多来,业界发布了非常多的大模型,从去年OpenAI GPT-3 1750亿参数开始,到年初华为盘古大模型 1000亿,鹏程盘古-α 2000亿参数,Google switch transformer 1.6万亿;及近期的智源悟道2.0 1.75万亿参数 MoE,快手1.9万亿参数推荐精排模型,阿里达摩院M6 1…

ChatGPT强势爆红,背后的技术原理是?一文轻松搞懂!

什么是ChatGPT? ChatGPT是由OpenAI团队开发和训练一个人工智能聊天机器人程序,换句话说就是专注于对话生成的大型语言模型。在2022年11月30 日OpenAI 的首席执行官Sam Altman在推特上写道:“今天我们推出了 ChatGPT,尝试在这里与它交谈”&…

我与chatGPT的谈话从三个问题开始

chatGPT是什么?xhatGPT为什么那么火爆?chatGPT对我的影响? 首先,chatGPT是什么?以下是它给我提供的答案: 回答的语句通顺,右边还有个反馈按钮,果断给个赞。于是我让他讲述以下自己…

AI 入侵前端,哪类工程师最危险?

整理 | 何苗 出品 | CSDN(ID:CSDNnews) 当 GPT-4 向大家展示了如何用十秒把一个网站的手绘草图变成功能齐全的网站,包括一些炫酷的js链接按钮,技惊四座。不可避免地,前端工程师们也被 AI 风暴卷到了…

最容易被优秀程序员看不起的三件事……

【CSDN 编者按】开发人员们似乎患上了“银弹综合症”,面对技术难关,把太多的期望寄托在所谓的新技术中,却常常低估了一些最基本或许也是最有效的方法。 原文链接:https://nvnh.io/index.php/2022/11/28/3-underrated-things-great…

Chrome 推出全新性能模式,彻底告别“内存杀手”!

整理 | 王启隆 对于许多人来说,每天在电脑上运行着打开大量标签页的 Chrome 进程,可能比运行 3A 游戏大作更加吃力。Chrome 这个“内存杀手”的名号早已是耳熟能详,而谷歌明显也是注意到了这点,开始积极改善这款浏览器的性能。近日…

“AI春晚”北京召开:发布国产开源可商用大模型,OpenAI CEO做主题演讲,LeCun、Hinton都来了...

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的热度还没减,一场大会又将AI、大模型的注意力推向了新高度。 因为在国内,还从没有哪个活动能如此“高密度”地汇集众多传说中的AI大佬们—— 四位图灵奖得主:Geoffery Hinton、Yann LeC…

大模型扎堆「赶考」,语文还是国产AI行,文言文能力超过95%考生

量子位 | 公众号 QbitAI ChatGPT诞生后的第一场全国高考,考生忙,大模型们也很忙。 这不,高考还没结束,AI挑战高考题就成了刷屏热搜话题,各家大模型都被拉出来写起了高考作文,甚至是参与整场考试。 &#…

任正非:过去3年,华为已完成1.3万个美国制裁器件的国产替代!(附:最新讲话实录)...

华为做为5G网络重要供应商,一直以来都是美国几轮出口管制目标,制裁也让华为无法从美国公司获取芯片,也不能利用美国设备来生产、设计自家芯片,拜登政府2022年还禁止在美国销售新的华为设备。 不过,近日,上海…

【观察】星环科技:布局行业大模型赛道,加速国产化替代进程

以ChatGPT和GPT所代表的大模型,已经在国内形成了“海啸效应”,几乎所有的科技公司都在想方设法进入大模型的赛道。背后的核心驱动力,就在于大模型的最大价值在于普遍提升个人生产力,而各行各业的公司都在积极寻找应用大模型和生成…

ChatGLM2-6B发布,C-Eval超GPT4,支持32k上下文!

自清华大学数据挖掘实验室(THUDM)3月开源ChatGLM-6B已经过去了3个多月,最近他们又带来了性能全面提升的“船新”版本-ChatGLM2-6B。别看名字变化小,其实更新的模型性能是又有量又实用。不了解ChatGLM的小伙伴可以看我这篇文章&…

苹果测试Siri自然语言生成功能;腾讯基于语言模型的短文本对话专利获授权;ChatGPT Plus订阅现已在印度推出丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 ChatGPT Plus 订阅现已在印度推出:支持最新 GPT-4 3月17日,据OpenAI官方推特消息,用于访问OpenAI文本生成人工智能的订阅服务ChatGPT Plus已经在印度推出。 OpenAI还继续在其…

OpenAI还在烧钱,但开发者已经利用GPT和Stable Diffusion挣钱了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI Text-to-Video文生视频,继作文、绘画之后AI杀入的又一领域,有越来越多产品涌现。根据读者爆料,一款主打AI生成视频的产品,已经在小圈子内被频频提及,还是国产的。 量子位迫不及…

头部企业走入无人区,国产数智化厂商挑大梁

本文转自数智前线 文|石兆 编|游勇 央国企数智化与信创化双重需求叠加,国产厂商挑大梁,助力企业升级数智化底座,实现价值化国产替代。 4月,在北京用友产业园的数智剧院里,近千位来自30个行业…

基于Mathematica的机器人仿真环境(机械臂篇)

目的   本文手把手教你在 Mathematica 科学计算软件中搭建机器人的仿真环境,具体包括以下内容:    1 导入机械臂的三维模型    2 正\逆运动学仿真    3 碰撞检测    4 轨迹规划    5 正\逆动力学仿真    6 运动控制   文中的所有代码和模型文件都在此处…

ChatGPT向癌症开了一枪

出品 | 虎嗅医疗组作者 | 陈广晶编辑 | 陈伊凡头图 |《绝命毒师》剧照 经典靶点的奠基人到中国创业,会带来哪些改变? 前不久,一家名为赛得康的生物技术公司获得种子轮投资的消息,在医药行业媒体来了一轮“轰炸”。除了创业者之一宾…