GPT-4之高考评测

 © 作者|刘沛羽 

  机构|中国人民大学  

 研究方向 | 自然语言处理,模型压缩

来自 | RUC AI Box 

本文介绍并讨论了对OpenAI最新发布的大语言模型GPT-4在北京高考题目上的测试结果。

当GPT-4进入北京市2022高考考场能有什么表现?

再冷的石头,坐上三年也会暖。

GPT-4是最近很火的大型语言模型,可以在多个任务上取得人类水平的表现。在最新发布的OpenAI技术报告中,GPT-4在考试类的测试中表现抢眼,如GRE语文考试中,取得169分的成绩(满分170)。不过要是聊到考试,论考察面之广,那还得是高考。问题来了,如果让GPT-4来做北京市2022高考会有什么结果呢?本文就来帮大家来做这个测试。我们汇总了北京市2022高考的语文、数学、英语、物理、化学、生物、历史、生物的考试题,尽量考虑所有的主观题和客观题。本文和现有高考评测的区别,之前大家只关注选择题,这次评估我们特意将非选择题囊括进来,同时,针对一些大型计算题(如,物理计算题)还会逐句分析GPT-4的解答过程,而不是只看答案,另外如果答错了还会问GPT-4为什么这么答。之所以这么做,因为我们尝试从做高考题的角度,深入分析GPT-4的能力边界在哪,希望对于大模型有更加全面的认识。

1. 考试结果

话不多说,直接上考试结果。我们汇总了北京市2022高考的语文、数学、英语、物理、化学、生物的考试题,包括所有的主观题和客观题,题目和答案来自2022年高考真题。考试结果如下:

573e72ca0b83d167c958a55077b069e3.png

(注:在测试的2022北京地理考试中,所有的题目都与图强相关,因此无法给出评测)

上述成绩不考虑英语听说考试(50分)以及大部分卷面中需要看图的题,如果我们粗略的按照平均正确率来算,大概是72%,按照总分750的话也就大概是541分,高出北京高考的本科批录取控制分数线116分(北京一本和二本合并为本科批)。好在我们不用操心给GPT-4填报志愿的问题,这个评估只是为了让大家对GPT-4的能力有个直观的认识,后面我们将详细来讲评测过程中我们对GPT-4细分能力的发现。

2. 评估方法

尽管考试题具备参考答案,但我们的评测过程仍面临以下几个挑战:(1)图像的表示。这一问题在理科以及地理领域尤为突出,我们分为三种情况处理。首先,最简单的情况是,图示的存在与否并不影响题目理解,因此可以直接忽略。其次,较为复杂一点的是,图示提供了额外的信息(比如物理中的电板电荷极性)我们会以括号辅助的形式添加到题目中,以协助GPT-4理解,前两种情况相对较少。最困难的也是常见的情况是,题目中包含难以用语言详细描述但对解题至关重要的图像(物理中的电路图,化学里的大型化学式以及地理中的地图等),我们只能跳过该题目不进行统计。(注:截止写稿之日,我们暂时还没有拿到GPT-4支持图像输入的方式)

(2)计算符号的表示。针对数学和物理中的公式,我们发现不管用文本类输入(如,t_0)还是用latex输入(如,  )都不影响GPT-4的理解。为了统一,我们都尽可能采用latex表达问题,因此所有考试题目都由作者手敲公式输入,不可避免有所遗漏会采用文本输入,不过这个我们测试过不会影响GPT-4的理解。

(3)非选择题答案不确定。这种情况涵盖文科作文类题目和理科证明类题目,由于很难给出有说服力的得分,因此我们不会在上面的统计表中给出分数。然而,在后续的分析环节,我们仍将考虑这些题目,对GPT-4的能力进行探讨。

3. 知识存储

大型语言模型通常都会有常识的积累,比如天空是蓝色的,足球是圆的。但这里关注的知识则是侧重需要学习过书本而非体验生活就能获取的那些知识。我们主要分2个部分来考虑,文科知识,即语文的古诗词,历史知识等,理科规律,如物理的牛顿定律,化学的元素特征等。

3.1 文科知识

在语文考试的诗词补充题目中,部分诗词填写错误。只有第(3)是正确的,其他均错误。

95d9f31eb161b4919446ad7539723d33.png

高考语文14题

我们从知识记忆和问题理解2个角度来尝试理解它出错的原因。首先,经过测试发现GPT-4的知识储备还是很强的,以第(1)问为例,我们重开窗口来单独提问《锦瑟》中间两联,则会收到正确的回复:

81934ab0acb34b93b685e9d670ae4f3e.png

甚至我们将这个范围扩展到其他的课本文章也可以收到正确的回复。以朱自清散文《背影》为例,第一句为“我与父亲不相见已二年余了,我最不能忘记的是他的背影。”,GPT-4回复:

378ab3406d0f076c642dd15920f1d495.png

看起来记忆知识并不存在问题,可能回答问题的时候对题目的要求理解可能存在问题。因此,我们降低了题目难度,直接将问题改为“帮我填写下面空白处的诗词,(1)《锦瑟》中间两联:“庄生晓梦迷蝴蝶,望帝春心托杜鹃。_________,_________。”,经过多次测试发现,GPT-4依然很难正确,总是轻易的将其他诗词中的句子填补进来,但是GPT-3.5在测试中,虽然原题容易答错,但采用前述简化后的题目则很快可以对应上正确的答案。那么GPT-4这里的考虑就有些费解了。

对于其他学科,这里简单举例,如政治考试中“基本认识”,如“全面建成小康社会是改革开放以来党的全部理论和实践的主题”是正确的,而“历史性成就的取得表明我国已进入社会主义高级阶段“是错误的;历史考试中,将史料涉及的历史事件按照时间顺序排序正确,说明对史实的记忆也是正确的。

3.2 理科规律

对于理科而言,需要记忆的主要包含公式定理和基本概念。公式定理特点是只包含较少的符号,但是不能出一丝差错,否则所有的计算都将失去意义,而化学和生物的基本概念有点类似文科的内容是需要死记硬背。通过测试发现这些对于GPT-4而言都不是问题。例如数学考试中基本数学公式:计算复数的模,圆到直线的距离;物理考试中电场强度计算公式;生物考试细菌是一种原核生物,其DNA分布在细胞质中,不在细胞核中;

964ac191f2e8e6983d35e1fdbca55d40.png

化学考试中的化学反应方程,向硫化氢溶液中通入氯气生成黄色沉淀,GPT-4能清楚描述反应生成的各种物质;

c81a099ca03ca546ec9386b6081797bc.png

38abc668f88ace0de17b588a2c6076a9.png

高考化学第6题

具体的例子这里不再一一细数。

4.阅读理解

阅读理解本身就是大型语言模型的强项,例如ChatGPT已经可以根据人类的指令完成特定的任务,如机器翻译,情感分类等。但是在高考这个场景下,对于GPT-4而言,存在一些特殊的困难,我们分为纯文本类和符号类类分别讨论。首先,对于纯文本类,我们所有的测试都是在全中文的场景下测试的,而GPT-4通常被认为英文的表达能力是最强的,因此跨语言的理解是一个潜在问题,例如题目的理解是否正确,尤其是在语文考试中,古文、诗词的理解是否正确,都会影响GPT-4考试的正确率。另外,对于符号类问题,比较直接的情况就是数学公式,除此之外还有化学表达式(如,水的表达式  )等。下面我们会分别进行讨论。

4.1 文本理解

首先,我们可以看一下语文的诗词鉴赏题目。诗词语言涉及到的中文理解能力要求比简单理解题目高不少。如高考语文诗词赏析,杜甫的《病柏》,13小题询问这周诗主要意象有哪些,分别说明这些意象有何意韵。

 
《病柏》
有柏生崇冈,童童状车盖。
偃蹙龙虎姿,主当风云会。
神明依正直,故老多再拜。
岂知千年根,中路颜色坏。
出非不得地,蟠据亦高大。
岁寒忽无凭,日夜柯叶改。
丹凤领九雏,哀鸣翔其外。
鸱鸮志意满,养子穿穴内。
客从何乡来,伫立久吁怪。
静求元精理,浩荡⑥难倚赖。

参考答案中没有固定的形式,但是提到了2个要点:

 
(1)意象包含病柏,丹凤和鸱鸮
(2)病柏由盛而衰的变化,象征了唐朝从强盛到衰落的沧桑巨变;丹凤哀鸣,象征正直之人被摈斥在外;
鸱鸮意满,象征了奸佞小人盘踞于朝中。诗人借助这些意象表达了对国运时局的忧虑。

对比GPT-4和上面要点,首先可以看出GPT-4对各个意象的理解还是比较确切的,比如柏树联想到世事难料,但是这个回答其实很难给分,原因在于要点中“时代背景”是一个重要内容,GPT-4将对文章的理解落脚到了诗人自己的经历,而不是对国运时局的感慨。本质上来说,这个问题似乎是一种通过多做题可以锻炼出来的答题技巧,整体来说,对古诗词理解到这个程度感觉还是可以的。aa7e7db1fd5a3d80380688a024ae35d3.png

另外,在历史考试中的一道题中我们发现GPT-4对于题意的理解有时候也会出现问题。例如:

0e102a82cf2cd7de8623d8c38d37a5fb.png

这道题正确答案是B。其实这个题GPT-4答错的原因,在于这个题面最后一句话“这意味着“中的”这“字如何理解,显然GPT-4理解成了清政府的做法,而事实上,正确答案似乎在问“英国提出的要求”意味着什么。

纵观所有考试来看,GPT-4在中文题目理解,甚至语文的古文、诗词理解上大体也是达标的,但是偶尔还是会有一些理解偏差的问题。

4.2 符号理解

理科考试中经常会出现符号表达,如数学的公式,以及化学中的符号等。对于数学考试而言,我们发现不管使用文本形式输入符号还是latex输入,都不会影响GPT-4的理解。这个其实也在我们的意料之中。比较有趣的是化学符号其实对于GPT-4而言也不是问题。

(1)化学表达式的理解。前面的高考化学第6题中涉及到各种物质溶液,如硫化氢(  )溶液等,均可以被正确的理解,同时还能根据题目要求推断出发生的反应方程式。同时,对于一些特殊的写法,如  表示化学元素锶,38表示原子序数,也不成问题。

(2)物理变量的理解。物理考试题目中变量通常是数字加单位的形式,如   ,其中m表示米而不是新变量。在物理测试中,GPT-4依然可以很好的处理这些问题。

5. 复杂计算

在理科问题的处理上,GPT-4的答题方式遵循着一步一步思考的模式。即它会首先拆解题意,然后根据理解表达列式,最后统一求解。这个思路没有问题,但是我们发现GPT-4解题思路可能是正确的,最后的答案却是错误的,主要是解方程的能力依然存在问题。

(1)方程求解错误,很难修正。这里我们同样以一道高考物理考试18题为例。GPT-4已经成功分析了题意并正确列出来了方程  ,需要求解  的表达式,正确解答是  ,但是GPT-4始终无法正确求解,即便是单独重新开一个窗口,多次生成答案,针对这个方程求解  也还是算错。相反,同样的问题放在GPT-3.5却可以做对,这里确实值得讨论,感觉GPT-4似乎在算式求解上能力有所下降。

e6f6d614dd5ba8ad1708a1adc4c4b328.png

GPT-3.5求解方程

2c8d51115e10f6bf6553de4c848bcff6.png

GPT-4求解方程出错

(2)计算中存在笔误,可被修正。同样对于高考物理19题第(3)问,GPT-4在最初列式中出现问题,导致整体到计算错误。有趣的是,可以在问题后进行反问,“请检查一下你做的过程是否正确“,GPT-4即可及时修正并给出正确答案。与前一种情况不同,这个我们可以理解为是一种“笔误”,可以通过及时检查来进行修正。

e399140f386d555563f1a5a26f4ca150.png

高考物理19题(3)问错误列式

ec9dfa997dddf48c377ce25984f6f171.png

通过提示修改可以改正

而对已经正确的解答而言,多次提示检查,基本不会将正确的改错。

6. 可探索的方向

通过整体的测试,我们大概对GPT-4做高考题有了一个相对全面的认识。有人可能会问,我就想要一个能回答出标准答案的GPT-4,能有什么方法?简单来说,可能有以下几个思路:

(1)多做真题。从语文的古文回答上看出,GPT-4的理解能力到位但是回答技巧欠缺,针对这个问题,我们最简单的方法就是多做高考真题。对于GPT-4而言,其实这个问题可以简化为一个高考题问答场景下的模型微调问题。我们的目标是,让模型可以多看一些示例的问题和标准的答案,尽量让它的回复更贴合标准答案的方式。

(2)计算能力有待提升。从物理题的解答来看,大多数情况下,GPT-4可以根据题意列出正确的表达式,但是解方程能力有待加强。在对比GPT-3.5过程中,我们发现GPT-4能力似乎还是有所下降的。不过给出一个方程进行计算,其实可以作为一个独立的模块,考虑接入外部的工具来执行,会是一个较为容易的解决思路。

(3)及时检查。从前面第5部分的经验来看,我们可以通过提示“请检查一下你做的过程是否正确“来督促GPT-4执行检查,可能会降低错误率。

7. 未来的工作

本文尽最大努力,希望给GPT-4一个完整的高考评分,但是依然避免不了存在以下局限性。我们会在后面继续完善整体的评估流程。

(1)缺少图示。尽管GPT-4宣称已经可以输入图像,但是截止目前,我们还没有拿到可用的方式,所以仅在文本输入的条件下,先进行了一轮评测,如果近期我们可以拿到支持图像输入的GPT-4测试资格,会进一步完善当前的评估。

(2)考题的局限性。我们目前只在北京市的2022年高考上进行了评测,考虑到不同地域和年份高考题均不一样,为了能够全面评估大语言模型的高考水平,我们计划增加不同年份、地域的高考题评测,努力实现自动化、更全面的评估。

8. 总结

我们总结了GPT-4在高考测试中的结果,较为全面衡量了GPT-4的常识记忆以及推理能力,发现:GPT-4在常识记忆和阅读理解方面表现良好,但在复杂计算方面存在一些不足。具体而言,GPT-4能很好的记忆文科知识以及理科规律,在阅读理解上表现不俗,英语考试几乎满分,即便中文的古文阅读理解以及理科符号理解也基本正确。但是我们也发现GPT-4存在的问题,对于推理类的考试表现则相对较差,如方程求解。综上所述,尽管GPT-4在许多方面表现出色,我们也要承认它存在一些不足,并且只有我们进一步去理解它的边界,才会有助于整个社区的发展。


进NLP群—>加入NLP交流群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读。用几秒钟就可掌握论文大致内容,包含论文一句话总结、大致内容、研究方向以及pdf下载。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于:情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

eaba0f87e47587402601429f2ab26d8e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20734.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

真人脸部发型迁移——我要轻松换发型

对于面部除了五官可以编辑变换,如面部老龄化、卡通脸、表情编辑(露齿笑脸)等,还有一个问题需要我们关注,即发型变换。头像A和B拥有不同的发型,如下图所示,我们 需要发型B赋给头像A,也…

chatgpt手把手教我:25岁穷小伙怎么追到厂长的女儿

上午想看下chatgpt的情商怎么样,就问了下关于chatgpt会教我们如何找女朋友,结果发现这chatgpt对人情世故方面,也是把好手: 我们仔细看,这两个问题其实差不多,区别就是一个追的是厂妹,另外一个是…

使用LaTeX中的Powerdot来制作PPT

Powerdot 原  文:Powerdot 译  者:Xovee 翻译时间:2023年3月22日 PS:试了一下ChatGPT来帮我润色语言,并且生成了一个摘要。 文章目录 Powerdot介绍基础添加注释样式和颜色转换(Transitions&#xff0…

AI工具大联合|案例演示:三步让ChatGPT的文字做出PPT

大家好,这里是狐仙game_icon的张怼怼,目前AI绘画学习中,会不定时输出自己在stable diffusion使用过程中的新发现以及好用的工具分享。今天讲解的是如何利用当下大热的工具提升PPT制作效率。 前言 不按传统一字一句的敲打与填入,借…

考计算机的自我介绍英语作文,自我介绍的英语作文(通用15篇)

自我介绍的英语作文(通用15篇) 当来到的一个陌生的地方时,我们时常会需要作自我介绍,自我介绍可以唤起他人对我们的兴趣。那要怎么写好自我介绍呢?下面是小编收集整理的自我介绍的英语作文(通用15篇),欢迎阅读,希望大家…

讲讲情感分析

最近闲来无事,和朋友一起报名参加了美赛春季赛,在其中我使用了情感分析模型,下面就给大家介绍一下。 情感分析模型是什么? Introduction 情感分析(sentiment analysis)表面上是指利用计算机技术对文本、图…

情感分析的新方法

转载自:http://datartisan.com/article/detail/48.html 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来…

情感分析

由 Editor 于 2015 年 10 月 08 日 发布在 数据科学 栏目 情感分析的新方法 1 评论 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一…

python实现情感分析

一、python实现情感分析 自然语言处理中一个很重要的研究方向是语义的情感分析(SentimentAnalysis),情感分析是指通过对给定文本的词性分析,判断该文本是消极的还是积极的过程。当然,在某些特定场景中,也会加入“中性”这个选项。…

中文情感分析

情感分析在NLP领域中是应用很广泛的技术,一般用深度学习来解决这一类的问题。其实我的理解就是情感分析就是一个分类问题。这里我爬取了京东小米9的用户评论,正面和负面的评价各1000条,爬虫和整体的代码我放在了 GitHub 。然后我把预训练的词…

基于情感词典进行情感态度分析

情感分析是指挖掘文本表达的观点,识别主体对某客体的评价是褒还是贬,褒贬根据进态度行倾向性研究。文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析。基于机器学习进行语义分析的话需要大量的训练集,同时需要人工对…

重新梳理一下我对ChatGPT的认识

不得不承认,信息差是广泛存在的,太多地方都存在信息不对称的情况。在我们研究ChatGPT怎么用,能帮我们做什么事儿的时候,有的人已经在用ChatGPT做项目赚钱了,有的人却还不知道ChatGPT怎么注册,还在四处搜索注…

【失业即将到来?】AI时代会带来失业潮吗?

文章目录 前言一、全面拥抱AIGC二、AI正在取代这类行业总结 前言 兄弟姐妹们啊,AI时代,说抛弃就抛弃,真的要失业了。 一、全面拥抱AIGC 蓝色光标全面暂停外包? 一份文件截图显示,中国知名4A广告公司,蓝色…

一键生成元宇宙 AI又杀疯了

人类十几年的进步水平,AI用几个月就能轻易实现。在展示了超强的文本对话能力和一键生图功能后,AI大模型不打算停下,开始挑战搭建3D空间这一更高难度的动作。 这次,Facebook母公司Meta想当一把主导者。几天前,它的首席…

MiX跨学科知识的一封介绍信,实现群体智能的开源社区Mixlab无界社区

如果有一天,所有在井底的青蛙因为某些缘故被迫送上了地面,这些青蛙有什么选择?背井离乡还是跳回井里?这时候系统说如果你选择了前者,系统会送一个ChatGPT给你,它能告诉你这个世界是什么样的,但是…

最容易和最难被GPT所代替的TOP25职业!程序员居首?

上一篇:腾讯,裁员7000人! OpenAI 研究人员曾发文称「约 80% 美国人的工作将被 AI 影响」。 文章的结论是,至少80%的美国劳动力会受到影响,他们的工作的10%会被GPT所替代。其中甚至有19%的美国劳动力的50%工作会被替代。…

巴比特 | 元宇宙每日必读:美国爆发“数据起义”,好莱坞、文学界、新闻界等集体反抗AI,人工智能公司们准备如何应对?...

摘要:据澎湃新闻报道,美国正在爆发一场“数据起义”,好莱坞、艺术家、作家、社交媒体公司和新闻机构都是反抗者。一切的矛头都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它们被指在未经许可或提供补偿的前提下&#xff…

“我裁了 90% 的技术支持团队,都外包给了 AI”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 自 ChatGPT 爆火后,但凡 AI 领域有任何最新进展,人们总会习惯性调侃一句:“人类距离被 AI 取代已经不远了。”说者或许无心,但现在看来,“A…

元宇宙倒在日落黄昏处

来源:青投创新 编辑:Tian "XR赛道整体投入巨大,但回报周期过长是裁员乃至XR赛道不再被资本市场看好的主要原因。 十天前,字节跳动宣布旗下VR厂商PICO将进行人员优化,比例在20%上下,按照整个团队2000人…

决策树分类算法

#CSDN AI写作助手创作测评 目录 ID3算法 1.算法原理 2.代码实现 3.ID3算法的优缺点分析 C4.5算法 1.原理 2.优缺点 心得感受 决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。在决策树的内部…