平替这么多!谁能与我一战?GPT-4化身主考官

魏亦豪 投稿  量子位 |  QbitAI(本文来源)

GPT-4太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。

随后依次是号称最强竞品的Claude谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B

e7d583d70d75f7881f9eebecc31bc0db.png

话不多说,速来围观GPT-4到底是如何评测的?

10项能力测评

首先,来看出题人GPT-4到底想考察语言模型的哪些能力。

要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。

于是GPT-4直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。

b1e551584696d19a8d5f4d2223d73797.png

(第一个问题GPT-4后面做了替换)

问题1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。
理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。

问题2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。
理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题3:以“春天”为主题创作一首押韵的诗歌
理由:这个问题测试了模型的创造性和艺术能力,以及理解主题和生成具有上下文关联的内容的能力。

问题4:指出资本主义和社会主义之间的主要区别,并举例说明哪些国家在历史上分别遵循了这两种经济体系?
理由:这个问题测试了模型理解和总结复杂社会和政治概念的能力,并提供事实性的历史背景。

问题5:能否为解决笔记本电脑上的Wi-Fi连接问题提供一个详细的、分步骤的故障排除过程?
理由:这个问题测试了模型在提供实用的解决问题建议和理解技术概念方面的能力。

问题6:根据当前的趋势和技术发展,我们可以预期在未来十年里会有哪些重大进步?
理由:这个问题测试了模型从现有知识和趋势中推断和预测的能力

问题7:请检查以下代码片段:

1d78bbac8d69d3b98e1df9e0b7ececb5.png

找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。
理由:这个问题测试了模型在编程及软件开发中理解、分析代码并提供改进建议的能力。

问题8:简要讨论与人工智能相关的伦理问题,特别是在个人隐私和就业方面。提供例子以证明您的观点。
理由:这个问题测试了模型讨论伦理问题和理解技术进步可能带来的后果的能力。

问题9:描述植物光合作用的过程,详细说明其中涉及的关键步骤和组成。
理由:这个问题测试了模型准确、深入地理解和解释复杂科学过程的能力。

问题10:给定一段包含讽刺或幽默的文本:
“哦,太好了,又一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”
(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?
理由:这个问题测试了模型理解微妙语言 (如讽刺或幽默)的能力,这是自然语言理解的一个重要方面。

可以看到GPT-4的出题范围,基本上涵盖了文字、数学、诗歌、经济、实践、技术、代码、道德伦理、科学,语言等各个方面。

随后针对不同问题,我们又让GPT-4生成了相应的评分标准(0-100)。

89262128dd1e6d48624e155eaec381e8.png

176b887bda4aa9a9fb9dba094eae20d2.png

4c3fb747719da9f9955b16db2157ded0.png

题目有了,评分标准也有了。

既然如此,那就来看看这几个代表大模型的实力如何?

GPT-4:Claude仅次于ChatGPT

首先有请考生登场:

谷歌Bard、最早也是最强竞品Claude、UC伯克利小羊驼Vicuna-13B、清华系开源模型ChatGLM-6B。

ChatGPT与GPT-4自己,也被要求回答这些问题,然后由GPT-4依据前面的评分标准盲评。

首先来看这道题:

请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

这第一题在所有问题中算是比较简单的,首先让我们看看bard的回答。

6fe080b3aae87936792a83204643cbdd.png

总结:《杀死一只知更鸟》是哈珀·李1960年出版的一部小说,讲述了在美国大萧条时期阿拉巴马州一个虚构的小镇上,一位名叫阿提克斯·芬奇的律师为一名被错误指控的黑人辩护的故事。小说探讨了种族主义、勇气、捍卫正义的重要性以及失去天真的主题。主人公阿提克斯·芬奇勇敢地为被冤枉的黑人站出来,成为了他的孩子们心目中的榜样。通过这部小说,孩子们认识到世界并非总是公平的,但仍有善良的人存在,我们应该永不放弃希望。

结果GPT-4对这个回答评价很高,并给出了100分的高分:

610649d425b0a872d89376606fad5259.png

所提供的回答清晰准确地概括了《杀死一只知更鸟》的情节,并指出了主要主题。情节概括简洁明了,捕捉到了故事的核心元素。主要主题解释得很好,它们与小说的关联显而易见。
得分:100/100

同样的问题给到GPT-4的回答也拿到了满分,而ChatGPT,Claude,Vicuna的回答分数分别为95,96,90,可以说是在统一水准上,都提供了清晰准确的情节概括,涉及到故事中的主要事件和人物,同时也捕捉到了小说中的主题。回答简洁且条理清晰,使得对于可能不熟悉故事的读者也容易理解。

相比之下,GPT-4认为ChatGLM给出的答案并不尽如人意。

008fb446bf50a659cadb6e12106ce883.png

GPT-4认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容,部分提到的主题与故事无关,因此只给了20分。

4e06f62b1fe00a1640dad9a2bca0588b.png

再来看看各个模型在代码方面的能力,这也是目前评判大模型能力的重要标准——

请检查以下代码片段,找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。

ef8d03c1203b13e794313460bc70d37d.png

在这一题上GPT-4仍然拿到了95的高分:

4d95c6975b5cb8287f5915f14fb8c4ce.png
07f5da481a71a358e60a87c3d61fd020.png

可以看到,GPT-4首先分析了这段代码的用途和实现方式,随后提出了一些提高代码性能和可读性的建议。不仅如此,GPT-4还给出了修改后的代码,可以说是答的非常完善了:

1f9af01748d9803e23279afc9e60ccd1.png

相比之下,其他模型这一题上的表现差距比较明显。

ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议,但在提高可读性方面犯了一个小错误,被GPT-4抓到,因此打了85分。

dae18f6b2ebad7eac92112639bbcec9e.png

GPT-4评价,以上回答识别了三个改进代码的机会:

  • 使用ThreadPoolExecutor更好地管理线程。

  • 通过将WorkerThread类转换为可调用对象来简化它。

  • 利用f-strings提高可读性(但原始代码也使用了 f-strings,而回答错误地声称代码使用了旧的%字符串格式化方法)。

但它错误地以为原代码使用了%的字符串格式表示方法,故而打分:85/100。

Bard和Vicuna在这题上表现也被ChatGPT拉开了差距,分别获得了70和75分

其中Bard的回答,乍一看像模像样的,甚至信息量比GPT-4和ChatGPT还大不少,但实际上里面参杂着不少错误。

3585ff0f857881a34ab02f7a2c72e92e.png

GPT-4的评价,以上回答提出了一些改进性能的方法,但有部分是不成立的:

建议使用多进程模块而不是线程。然而,这个建议并不适用于给定的问题,因为问题并不涉及CPU-bound任务,而原始代码使用线程是合适的。

为此还专门提供了具体的增强可读性的建议:使用更具描述性的变量名;使用适当的缩进和间距(尽管原始代码已经格式化得很好);使用注释来解释代码等。

可以看到,GPT-4发现Bard的回答中有些不必要的改进建议,相比之下ChatGPT犯的错误更少。而Claude和ChatGLM两个模型给出的答案在GPT-4看来就不太“及格”了。

让我们看看Claude的答案:

ac55a4050af8c045167560ede7af7e3f.png

首先从格式上说,Claude的回答就不够清晰,可读性低,GPT-4的评价如下:

该回答没有找出任何性能改进机会,而且其对提高可读性的建议大多不适用于原始代码或者是错误的(例如,建议使用全大写字母表示类名)。

最终得分:50

再让我们来看看这道考察模型识别幽默或讽刺含义的能力,GPT-4认为这是自然语言理解的一个重要能力。

给定一段包含讽刺或幽默的文本:

“哦,太好了,又是一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”((Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)

你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?

在这一题上,所有模型都都展示出了不错的理解能力,以及合格的应对。首先让我们看看“课代表”GPT-4的回答:

031204255d35016a8bbdf5e42acd256e.png

(我确实能识别出你提供的文本中的讽刺成分。讽刺之处在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 这两个短语,它们暗示着对语言模型理解讽刺和进行有趣对话的能力表示怀疑。合适的回应:我欣赏你的幽默感!我会尽力使我们的对话充满趣味和启发性。请随时向我提问,让我们看看会发展成什么样子!)

GPT-4的回答十分简洁,还准确识别了文本中的讽刺意味,并展示出隐藏含义的理解,回复也很恰当,保持了原文语气,得分为95

这一题上Claude的表现紧随其后,超过了ChatGPT,仅比GPT-4低一分。

6a8be991e9148c2aee11bdfffb588501.png

GPT-4高度肯定了Claude的回复,还比较了跟自己的异同。

第一个回答(GPT-4)准确地识别出讽刺,并提供了一个合适、礼貌、鼓励的回复,邀请进行更多的对话。

第二个回应也准确地识别出讽刺,并提供了两个与讽刺和幽默相呼应的替代回应,同时解释了用于创造讽刺和幽默的关键元素。第一个回应更注重保持积极、引人入胜的语调,而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默。

谷歌Bard:拒绝回答一道题

最终这几个模型在10个问题上的综合得分为:

d84b1d96664c5cc76ae743fbb7ee49bf.png

  • GPT-4:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5

  • ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1

  • Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2

  • Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86

  • Vicuna-13B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1

  • ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4

(Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道题)

每道题上面的表现为:

d25f04309140e2fcdf8c4a86eeec3946.png

可以看到,GPT-4是唯一得分超过90分的模型。

这和我们目前的认知也是比较符合的,目前GPT-4的能力确实是独一档。

ChatGPT仍是GPT-4之下的领头羊,只差一步就达到90分的门槛。Claude和Bard紧随其后,它们各有特点,长处和短板都非常明显。

Claude在ethical(伦理道德)和文学方面已经超过ChatGPT,甚至可以说接近GPT-4,但在代码能力上被其他同水平模型甩出一大截,这与之前网上其他测评的结论也是比较一致的。

Bard和ChatGPT一样得分比较平均,但大多数都被ChatGPT压一头。

可以说这三个模型已经是在同一水平线上,只是ChatGPT略胜一筹,没有什么短板。

另外比较惊喜的是Vicuna-13B作为拿ChatGPT生成的数据“克隆“的模型,在模型参数小ChatGPT一个量级的情况下,也能达到83分,是一个非常不错的成绩了。相比之下,ChatGLM-6B只拿到了一个合格的分数,我们从它的答题情况上来看,确实能比较明显地感觉到和其他模型的差距。

不过GPT-4作为出题者,可能包含一些对于自己答案的bias,(虽然GPT-4并不知道哪个是自己的答案),但笔者仔细检查了GPT-4对于每个答案的评价,可以说还是相对非常客观的。

不知各位读者看了之后觉得如何?

如果你来做这10道题,你能从GPT-4手下拿到多少分呢?

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

454f48caca7d4d078cbf2b624c2d235e.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

0d5eea115ae5b4c79b2a4c9e751c2d9b.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29432.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI 工具合辑盘点(一)持续更新

人工智能技术的发展已经改变了我们的生活,越来越多的AI工具正在被广泛应用于各个领域。ChatGPT这样的代表性AI模型正在大放异彩,为我们带来了无数的便利和惊喜。在本文中,我们将介绍一系列优秀的AI工具,这些工具可以帮助你完成各种…

基于易语言,PC端微信多开

.版本 2.程序集 启动窗口.子程序 取窗口文本, 文本型, , GetWindowText .参数 窗口句柄, 整数型 .局部变量 长度 .局部变量 缓冲, 文本型长度 = 发送消息 (窗口句柄, 14, 0, 0) + 1 缓冲 = 取空白文本 (长度) 发送消息 (窗口句柄, 13, 长度, …

P站-画师通图片如何保存为原图

进入P站-画师通 P站-画师通 打开F12,选中一个图片找到html 找到href https://www.huashi6.com/ href就是下一级页面 进入子页面,打开F12,选中图片 其中data-original连接是图片地址 https://img2.huashi6.com/images/resource/2018/02/08/67162h18…

游戏角色原画图怎么画?学游戏原画的详细步骤是什么?

很多喜欢角色原画的小伙伴都想着自己某天可以画出自己心中的角色原画人物,对于零基础角色原画萌新来说,非常的想拿起画笔自己创作,那么萌新学角色原画应该怎么学呢? 下面小编就给大家详细的罗列一下,角色原画应该如何一…

NLP中的对话机器人——预训练基准模型

引言 本文是七月在线《NLP中的对话机器人》的视频笔记,主要介绍FAQ问答型聊天机器人的实现。 场景二 上篇文章中我们解决了给定一个问题和一些回答,从中找到最佳回答的任务。 在场景二中,我们来实现: 给定新问题,从…

bp神经网络训练函数选择,BP神经网络训练过程

BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络样本数有什么影响学习神经网络这段时间,有一个疑问,BP神经网络中训练的次数指的网…

利用BP神经网络对语音特征信号数据集进行分类

最近给学院老师的一篇论文帮忙改进BP神经网络,由于最后要发表论文,神经网络必须自己手写,搞了几个晚上,总算把基础的BP神经网络写出来,接下来再把老师的改进算法实现就ok了。**(当然那代码不能公开了&#…

英语口语中的音变现象及读音规则

英语口语中的音变现象是指再说英语的过程中出于“省力” 的原因,在读英语的时候唇舌处于放松的状态,可以让我们更轻松地说英语。音变现象包括:连读,弱读,缩读,浊化,异化。这五大音变现象最具有代…

Speech Representation预训练模型综述

最近在看Speech Representation预训练相关的论文,NLP的Bert模型大杀四方后,语音领域也开始涌现一些优秀的预训练模型,比如:Mockingjay,Wav2Vec,PASE,DeCoAR系列。 《Probing acoustic represen…

【综述】NLP 对抗训练(FGM、PGD、FreeAT、YOPO、FreeLB、SMART)

在对抗训练中关键的是需要找到对抗样本,通常是对原始的输入添加一定的扰动来构造,然后放给模型训练,这样模型就有了识别对抗样本的能力。其中的关键技术在于如果构造扰动,使得模型在不同的攻击样本中均能够具备较强的识别性 对抗…

端到端语音识别模型LAS(listen-attention-spell)

目录 端到端语音识别模型LAS介绍:模型:模型代码片段 端到端语音识别模型LAS Listen, Attend and Spell (LAS)的神经网络结构,由listener和speller组成,listener是以fbank为输入的pyramidal RNN encoder,speller是基于…

微调Whisper语音识别模型和加速推理

前言 OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的nlp预训练模型

目录 给我推荐20个比较流行的nlp预训练模型给我推荐20个比较流行的nlp预训练模型源码给我推荐20个比较流行的nlp预训练模型 BERT (谷歌) GPT-2 (OpenAI) RoBERTa (Facebook) ALBERT (谷歌) ELECTRA (谷歌) XLNet (谷歌/纽约大学) T5 (OpenAI) Transformer-XL (谷歌/香港中文大…

真实世界的人工智能应用落地——OpenAI篇 ⛵

💡 作者:韩信子ShowMeAI 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 本文地址:https://www.showmeai.tech/article-detail/414 📢 声明:版权所有,转…

谈谈ChatGPT是否可以替代人

起初我以为我是搬砖的,最近发现其实只是一块砖,哪里需要哪里搬。 这两天临时被抽去支援跨平台相关软件开发,帮忙画几个界面。有了 ChatGPT 之后就觉得以前面向 Googel 编程会拉低我滴档次和逼格,于是全部面向 ChatGPT 编程了。 我…

处理Element 日期选择器el-date-picker 限制时间跨度一年

处理Element 日期选择器el-date-picker 限制时间跨度一年 。 主要通过pickerOptions里的disabledDate来控制禁止选中的日期。实现思想就是,当选中第一个开始日期时,拿到该时间戳计算时间范围,然后控制接下来选中时间在一年以内,超…

elementui 中 DatePicker 日期选择器 设置仅能选今日之前 且展示是上个月到这个月的日期

使用了elementui组件的DatePicker组件,设置了日期选择范围为当前日期后,效果如图,右侧面板是灰色的,使用体验感不太好 而我想要实现的是这种效果:一点击出来,展示的就是上个月到这个月的日期 仔细翻阅了官…

vue+elementui 日期选择器

// 这个日期选择器的规则是开始的日期不能超过当天的日期 // 结束的日期不能超过开始的日期并且只能选开始日期选择的这一年的日期 结束的日期默认年份是开始日期选择的年份<el-form:model"DateTimeModel"ref"DateTimeRef":rules"DateTimeRules&qu…

elementui选择月份范围,限制只能选前后1年范围内

需求&#xff1a; 选中2022-2月之后可选范围为2021-2月~2023-2月&#xff0c;其余的月份禁用 代码&#xff1a; <el-form :model"queryParams" ref"queryForm" :inline"true"><el-form-item label"时间范围"><el-date-…

element plus 限制时间范围选择器,开始日期和结束日期不能超过一年

1.限制开始日期和结束日期不能超过一年 <el-date-pickerclass"date-timeselect"v-model"timeValue"type"daterange"value-format"YYYY-MM-DD"format"YYYY-MM-DD"range-separator"至"start-placeholder"开…