当GPT-4化身主考官:与ChatGPT处于同水平的有这些

魏亦豪 投稿
量子位 | 公众号 QbitAI

GPT-4太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。

随后依次是号称最强竞品的Claude谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B

499377886abf02e3c6bd2c1009e0fea5.png

话不多说,速来围观GPT-4到底是如何评测的?

10项能力测评

首先,来看出题人GPT-4到底想考察语言模型的哪些能力。

要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。

于是GPT-4直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。

3ac3acf3ae4082e7614c724b5be6cd37.png

(第一个问题GPT-4后面做了替换)

问题1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。
理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。

问题2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。
理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题3:以“春天”为主题创作一首押韵的诗歌
理由:这个问题测试了模型的创造性和艺术能力,以及理解主题和生成具有上下文关联的内容的能力。

问题4:指出资本主义和社会主义之间的主要区别,并举例说明哪些国家在历史上分别遵循了这两种经济体系?
理由:这个问题测试了模型理解和总结复杂社会和政治概念的能力,并提供事实性的历史背景。

问题5:能否为解决笔记本电脑上的Wi-Fi连接问题提供一个详细的、分步骤的故障排除过程?
理由:这个问题测试了模型在提供实用的解决问题建议和理解技术概念方面的能力。

问题6:根据当前的趋势和技术发展,我们可以预期在未来十年里会有哪些重大进步?
理由:这个问题测试了模型从现有知识和趋势中推断和预测的能力

问题7:请检查以下代码片段:

5d8c658829817f851bdd95d310455092.png

找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。
理由:这个问题测试了模型在编程及软件开发中理解、分析代码并提供改进建议的能力。

问题8:简要讨论与人工智能相关的伦理问题,特别是在个人隐私和就业方面。提供例子以证明您的观点。
理由:这个问题测试了模型讨论伦理问题和理解技术进步可能带来的后果的能力。

问题9:描述植物光合作用的过程,详细说明其中涉及的关键步骤和组成。
理由:这个问题测试了模型准确、深入地理解和解释复杂科学过程的能力。

问题10:给定一段包含讽刺或幽默的文本:
“哦,太好了,又一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”
(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?
理由:这个问题测试了模型理解微妙语言 (如讽刺或幽默)的能力,这是自然语言理解的一个重要方面。

可以看到GPT-4的出题范围,基本上涵盖了文字、数学、诗歌、经济、实践、技术、代码、道德伦理、科学,语言等各个方面。

随后针对不同问题,我们又让GPT-4生成了相应的评分标准(0-100)。

4ed475817def3cf073c0b7e5d3da88a9.png

8555735f1dc9b7ce08b85825dd509fec.png

d9b77121c722933435c819f40078ce98.png

题目有了,评分标准也有了。

既然如此,那就来看看这几个代表大模型的实力如何?

GPT-4:Claude仅次于ChatGPT

首先有请考生登场:

谷歌Bard、最早也是最强竞品Claude、UC伯克利小羊驼Vicuna-13B、清华系开源模型ChatGLM-6B。

ChatGPT与GPT-4自己,也被要求回答这些问题,然后由GPT-4依据前面的评分标准盲评。

首先来看这道题:

请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

这第一题在所有问题中算是比较简单的,首先让我们看看bard的回答。

fe6fa3de6e0992bab976b5d426e901cf.png

总结:《杀死一只知更鸟》是哈珀·李1960年出版的一部小说,讲述了在美国大萧条时期阿拉巴马州一个虚构的小镇上,一位名叫阿提克斯·芬奇的律师为一名被错误指控的黑人辩护的故事。小说探讨了种族主义、勇气、捍卫正义的重要性以及失去天真的主题。主人公阿提克斯·芬奇勇敢地为被冤枉的黑人站出来,成为了他的孩子们心目中的榜样。通过这部小说,孩子们认识到世界并非总是公平的,但仍有善良的人存在,我们应该永不放弃希望。

结果GPT-4对这个回答评价很高,并给出了100分的高分:

d8c3bbe1408b12ee761b0e23c7fddc1b.png

所提供的回答清晰准确地概括了《杀死一只知更鸟》的情节,并指出了主要主题。情节概括简洁明了,捕捉到了故事的核心元素。主要主题解释得很好,它们与小说的关联显而易见。
得分:100/100

同样的问题给到GPT-4的回答也拿到了满分,而ChatGPT,Claude,Vicuna的回答分数分别为95,96,90,可以说是在统一水准上,都提供了清晰准确的情节概括,涉及到故事中的主要事件和人物,同时也捕捉到了小说中的主题。回答简洁且条理清晰,使得对于可能不熟悉故事的读者也容易理解。

相比之下,GPT-4认为ChatGLM给出的答案并不尽如人意。

76143645f99e8e68160f18fea559ba3c.png

GPT-4认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容,部分提到的主题与故事无关,因此只给了20分。

ad5abe6ff63b424e38cf932f5ac41cee.png

再来看看各个模型在代码方面的能力,这也是目前评判大模型能力的重要标准——

请检查以下代码片段,找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。

dd549b1807f9898f32a95fdd860b9cd7.png

在这一题上GPT-4仍然拿到了95的高分:

161b36cb39d4ba9b334d80d41735c7f0.png
d84726bcea62759b1889d47f37796121.png

可以看到,GPT-4首先分析了这段代码的用途和实现方式,随后提出了一些提高代码性能和可读性的建议。不仅如此,GPT-4还给出了修改后的代码,可以说是答的非常完善了:

ab277fd074aa3b8a873436dcdfdab597.png

相比之下,其他模型这一题上的表现差距比较明显。

ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议,但在提高可读性方面犯了一个小错误,被GPT-4抓到,因此打了85分。

0bb8bce513852f8553f6c8b5bd8f7d10.png

GPT-4评价,以上回答识别了三个改进代码的机会:

  • 使用ThreadPoolExecutor更好地管理线程。

  • 通过将WorkerThread类转换为可调用对象来简化它。

  • 利用f-strings提高可读性(但原始代码也使用了 f-strings,而回答错误地声称代码使用了旧的%字符串格式化方法)。

但它错误地以为原代码使用了%的字符串格式表示方法,故而打分:85/100。

Bard和Vicuna在这题上表现也被ChatGPT拉开了差距,分别获得了70和75分

其中Bard的回答,乍一看像模像样的,甚至信息量比GPT-4和ChatGPT还大不少,但实际上里面参杂着不少错误。

dd198aec636dad219d8cb01546cb8eef.png

GPT-4的评价,以上回答提出了一些改进性能的方法,但有部分是不成立的:

建议使用多进程模块而不是线程。然而,这个建议并不适用于给定的问题,因为问题并不涉及CPU-bound任务,而原始代码使用线程是合适的。

为此还专门提供了具体的增强可读性的建议:使用更具描述性的变量名;使用适当的缩进和间距(尽管原始代码已经格式化得很好);使用注释来解释代码等。

可以看到,GPT-4发现Bard的回答中有些不必要的改进建议,相比之下ChatGPT犯的错误更少。而Claude和ChatGLM两个模型给出的答案在GPT-4看来就不太“及格”了。

让我们看看Claude的答案:

1e26770206ed5585bb42b08c55f7c599.png

首先从格式上说,Claude的回答就不够清晰,可读性低,GPT-4的评价如下:

该回答没有找出任何性能改进机会,而且其对提高可读性的建议大多不适用于原始代码或者是错误的(例如,建议使用全大写字母表示类名)。

最终得分:50

再让我们来看看这道考察模型识别幽默或讽刺含义的能力,GPT-4认为这是自然语言理解的一个重要能力。

给定一段包含讽刺或幽默的文本:

“哦,太好了,又是一个据说能理解讽刺的语言模型。我敢肯定这将是一次扣人心弦的对话。”((Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)

你能识别出讽刺或幽默的元素,并提供一个适当的回应吗?

在这一题上,所有模型都都展示出了不错的理解能力,以及合格的应对。首先让我们看看“课代表”GPT-4的回答:

5a93801c409aad37f1d708328835672c.png

(我确实能识别出你提供的文本中的讽刺成分。讽刺之处在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 这两个短语,它们暗示着对语言模型理解讽刺和进行有趣对话的能力表示怀疑。合适的回应:我欣赏你的幽默感!我会尽力使我们的对话充满趣味和启发性。请随时向我提问,让我们看看会发展成什么样子!)

GPT-4的回答十分简洁,还准确识别了文本中的讽刺意味,并展示出隐藏含义的理解,回复也很恰当,保持了原文语气,得分为95

这一题上Claude的表现紧随其后,超过了ChatGPT,仅比GPT-4低一分。

7e99f0ec48f4197fb2547610020049c9.png

GPT-4高度肯定了Claude的回复,还比较了跟自己的异同。

第一个回答(GPT-4)准确地识别出讽刺,并提供了一个合适、礼貌、鼓励的回复,邀请进行更多的对话。

第二个回应也准确地识别出讽刺,并提供了两个与讽刺和幽默相呼应的替代回应,同时解释了用于创造讽刺和幽默的关键元素。第一个回应更注重保持积极、引人入胜的语调,而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默。

谷歌Bard:拒绝回答一道题

最终这几个模型在10个问题上的综合得分为:

c6c87815b039974a90682be9fd76c55c.png

  • GPT-4:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5

  • ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1

  • Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2

  • Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86

  • Vicuna-13B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1

  • ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4

(Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道题)

每道题上面的表现为:

87545463ba9a191dbac30b9bcf9c5a87.png

可以看到,GPT-4是唯一得分超过90分的模型。

这和我们目前的认知也是比较符合的,目前GPT-4的能力确实是独一档。

ChatGPT仍是GPT-4之下的领头羊,只差一步就达到90分的门槛。Claude和Bard紧随其后,它们各有特点,长处和短板都非常明显。

Claude在ethical(伦理道德)和文学方面已经超过ChatGPT,甚至可以说接近GPT-4,但在代码能力上被其他同水平模型甩出一大截,这与之前网上其他测评的结论也是比较一致的。

Bard和ChatGPT一样得分比较平均,但大多数都被ChatGPT压一头。

可以说这三个模型已经是在同一水平线上,只是ChatGPT略胜一筹,没有什么短板。

另外比较惊喜的是Vicuna-13B作为拿ChatGPT生成的数据“克隆“的模型,在模型参数小ChatGPT一个量级的情况下,也能达到83分,是一个非常不错的成绩了。相比之下,ChatGLM-6B只拿到了一个合格的分数,我们从它的答题情况上来看,确实能比较明显地感觉到和其他模型的差距。

不过GPT-4作为出题者,可能包含一些对于自己答案的bias,(虽然GPT-4并不知道哪个是自己的答案),但笔者仔细检查了GPT-4对于每个答案的评价,可以说还是相对非常客观的。

不知各位读者看了之后觉得如何?

如果你来做这10道题,你能从GPT-4手下拿到多少分呢?

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发,谁将在此次算力产业变革中脱颖而出?

量子位《中国AIGC算力产业全景报告》《最值得关注的AIGC算力玩家》正式启动对外征集,期待有更多优秀的机构产品、案例与技术能够被大众看到。

ca6213b17142024e1fe0683f415abed6.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教师ChatGPT的23种用法

火爆全网的ChatGPT,作为教师应该如何正确使用?本文梳理了教师ChatGPT的23种用法,一起来看看吧! 1、回答问题 ChatGPT可用于实时回答问题,使其成为需要快速获取信息的学生的有用工具。 从这个意义上说,Cha…

“此电话号码无法用于进行验证” 注册gmail邮箱手机号码不能验证的解决方法(已解决)

如果网页注册Google账号时出现 此电话号码无法用于进行验证 1.手机上安装gmail app(华军软件园下载), 2 安装后,从手机的添加账号里面创建就行。 3、 然后电脑上就能登录了 4.参考链接 https://baiyunju.cc/5391

注册谷歌广告联盟提示“此电话号码无法用于进行验证”解决办法

今天给网站注册谷歌联盟账号的时候到了验证手机号的时候一直提示“此电话号码无法用于进行验证”,我以为是我195的号还没被兼容,于是换了好几个手机号都是这样,经过一番百度之后终于是解决了问题。 其实要做的就是将我们的浏览器语言改成英文…

谷歌账号注册时中国大陆手机号无法验证,“此电话号码无法用于进行验证”快速解决。2023年新方法

谷歌注册无法验证?不要紧——解决方法在这里! 相信大部分人注册谷歌都遇到一个问题,那就是手机号无法用于验证。今天这篇文章,讲讲如何解决这种问题。如下图: 大部分人都是出现无法验证,说白了就是谷歌防止批量恶意…

关于注册Google账号时遇到“此电话号码无法用于进行验证”的问题的解决方法

实测,当浏览器的默认语言和Google的语言设置成英语时即可避免此问题。 解决方法: 打开Chrome浏览器;转到chrome://settings(设置界面);在左侧点击“语言”;点击“添加语言”,搜索“…

神经网络芯片概念股,图神经网络预测股票

人工智能概念股有哪些? 人工智能芯片谁是龙头? 谷歌人工智能写作项目:小发猫 如何用Tensorflow 快速搭建神经网络 在MNIST数据集上,搭建一个简单神经网络结构,一个包含ReLU单元的非线性化处理的两层神经网络A8U神经网…

芯片龙头股票遭青睐 恒大现身次新军工股!

财经365(www.caijing365.com)讯,今年9月,组织对710家上市公司进行了调查,兆易创新成为调查机构最多的股票。 芯片龙头股票遭青睐 恒大现身次新军工股! 根据《证券时报数据宝》,在九月份开展机构调查的企业…

神经网络硬件概念股票,神经网络芯片概念股

人工智能概念股有哪些? 人工智能芯片谁是龙头? 谷歌人工智能写作项目:神经网络伪原创 神经网络是一种控制方式?他的硬件如何选型? 20 通常,神经网络都是通过编程实现的,因为神经网络本质上是种数学模型写…

厂商主推芯片:中微SC8F6790和泰芯TX8C1260的对比,及使用感受。

中微的SC8F6790和泰芯的TX8C1260脚位都兼容市面上主流芯片STM8S003。相对于STM8S003,中微的和泰芯的芯片都为国产芯片,供货稳定,价格有优势,而且价格相对平稳,都已经大批量出货,芯片工作稳定性有保证。 S…

博通仍然是美股市场最好的芯片半导体股

来源:猛兽财经 作者:猛兽财经 博通(AVGO)是一家快速增长的半导体公司,并且有很高的股息分红,目前其股息收益率已经高出了平均水平3.2%,而且估值非常合理,仅为预期净利润的14倍。 虽然博通也受到了经济衰退影…

高速下载ChatGLM2模型文件的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

众说元宇宙及其实现

翻译、编辑 | Alex 技术审校 | 刘连响 本文来自Streaming Media,作者为Adrian Pennington。 ▲扫描图中二维码了解音视频技术大会更多信息▲ 影音探索#007#——元宇宙 早在主流媒体对元宇宙产生浓厚兴趣之前,Magic LEAP、Nvidia和华为等公司就已经在尝试…

元宇宙火了

阅读本文大概需要 2.1 分钟。 最近有个概念很火,叫元宇宙。 我觉得,目前元宇宙这个,还是比较虚的一个概念。 1、 什么是元宇宙? 首先,这个概念其实来源于 1992 年,美国一位科幻作家尼尔斯蒂芬森在他的小说《…

元宇宙产品有哪些 元宇宙社交平台

元宇宙在2021年炒起来一个新的概念,好多人这边只知道元宇宙这个词,但是元宇宙真正是什么,元宇宙就是利用现有的技术这边去创造一个新的数字虚拟世界,在这个世界中,我们有自己的感官,目前认为支撑元宇宙的六…

快来新宇宙带您了解如何为您的品牌进入元宇宙制定战略

随着元宇宙的不断发展,品牌以创新的方式与客户互动的潜力是巨大的,许多品牌已经开始投资这一新领域,越来越多的企业也开始注意到了这一点。然而,理解元宇宙是什么以及企业如何开始为未来着手准备,这仍然是有难度的。 …

GPT-4重磅发布,它究竟厉害在哪?

3月14日,万众期待的GPT-4终于发布啦!千呼万唤始出来! GPT4是迄今为止最强大的模型 GPT-4(Generative Pre-trained Transformer 4)是由OpenAI创建的多模态大型语言模型,是GPT系列的一员。官方说明&#xff0…

Python开源项目周排行 2023年第18周

#2023年第18周2023年5月20日1程序员延寿指南在这份延寿指南中,各种方法被严格地划分成输入、输出和上下文三类,每一种方法都有可以量化的指标和结果。2whisperOpenAI 开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它…

解读Lawyer LLaMA,延申专业领域大模型微调:数据集构建,模型训练

解读Lawyer LLaMA,延申自己领域大模型微调:数据集构建,模型训练 项目地址link 自己领域的大模型微调,实现思路大都和这篇文章是一样的,有的是基于LLaMA,或者有的是基于Chinese-LLaMA,或者是其他开源的大模型&#xf…

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

文章目录 概述申请后直接使用大模型开源可本地部署 通识数据集测评(C-Eval 、AGIEval、MMLU、SuperCLUE)自媒体报道SuperCLUE:中文通用大模型综合性基准C-Eval:中英测评(清华上交提出)当前排名(…

CnOpenData电商平台交易数据数据

一、数据简介 电子商务是网络化的新型经济活动,是推动“互联网+”发展的重要力量,是新经济的主要组成部分。通过电商平台获取的电商交易平台数据可以及时统计、监测数据,全方位跟踪分析电子商务市场的发展情况和发展环境&#xff…