当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科

作者 |Python

ChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考,会是怎样的一番光景呢?他会不会偏科呢?我们这些普通人又能否考得过ChatGPT呢?且看复旦大学和华东师大的同学们给大家带来的评测。

论文题目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark


大模型研究测试传送门

ChatGPT传送门(免墙,可直接测试):

https://hujiaoai.cn

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):

https://gpt4test.com

如何让ChatGPT解答高考题?

该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入,如下图所示。对于不同的学科和题型,设计了不同的询问方式。对于数学题,则将公式转化为latex输入。

高考数据集

本文测试采用2010~2022年,一共13年间的全国A卷和全国B卷,每套试卷包含10门学科,即语数英物化生史地政,其中数学分为理科数学与文科数学。

数据集一共包含2811道试题。具体题型这里就不展开,相信读者们对高考题还是十分了解的。

在评估时,聘请上海市曹杨第二中学的高中老师批阅主观题。

实验与分析

历年高考,ChatGPT取得的分数如下图所示。由于在计算分数时,将每科都归一化到100分,所以这个成绩无法和你我的高考成绩直接比较。但也可以看出,这个分数并不理想,估计无论是复旦还是华东师大都是考不上的。这是为什么呢?

上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题,黄色为主观题。分析发现,ChatGPT对客观题的成绩较好,尤其是英语阅读理解、单选、完形填空,分别取得了88.3%,78.1%,73.8%的准确率。但即使是客观题,理科数学的准确率还不到40%。数学是真的难呀~

主观题上,ChatGPT的表现较差,物理、化学、生物和数学科目中,主观题的表现明显不如客观题。结合理科客观题分数也较差,或许ChatGPT偏向文科?根据阅卷人的评语,ChatGPT主要欠缺在:1.数学问题中的复杂方程难以正确解决,在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。


总结

ChatGPT在训练过程中可能没有使用中国高考题数据,因此其表现不受数据泄露的影响,具有较高的可信度。

观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的表现稍逊一筹。因此,国内的学生暂时无需过分担心无法考过ChatGPT。然而,文章中提到的长文本概括能力等在GPT4-32K中有显著改进,国产大模型也在中文数据上做了进一步的优化。因此,我们可以期待未来大模型高考题上取得更瞩目的表现。

此外,用ChatGPT解高考题这个思路,或许可以回答网友们对哪个省的考题更难的争论?

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5577.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看百度文心一言实力,再聊ChatGPT触类旁通的学习能力如何而来?

图文原创:亲爱的数据 美国大模型水平领先,国内大模型蓄势而发。 国内大模型参与者众多,百度文心一言第一个有勇气站出来发布。 此处应有掌声。 事前事后,中国网友的呐喊声不绝于耳:“文心一言到底什么水平啊&#xff1…

山东大学教授团畅谈ChatGPT革命座谈会,探讨ChatGPT发展趋势

2月18日,由山东大学多院系教授学者组成的山东大学教授团在济南福瑞达自贸创新产业园举行了“畅谈ChatGPT革命”座谈会,诸位教授学者就ChatGPT出现的影响进行了探讨。 产业园首席顾问李铁岗教授向大家介绍产业园区 山东大学经济学院教授、济南福瑞达自贸创…

ChatGPT最强对手,实测却输给了文心一言!

侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌! 就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好…

漫画科普ChatGPT:绝不欺负文科生

图文原创:亲爱的数据 你所热爱的,都值得拥有一个名字。 世界上里程碑式计算机,问世之时大多拥有自己的名字。 我认为,假如计算机的诞生是元年,下一个元年将会是“奇点”。 不是比特币,不是虚拟现实&…

为什么说 ChatGPT 引爆第四次工业革命?

如果看不懂当下,请回忆历史,因为曾经发生过。 如果忘记了历史,请看看当下,因为历史正在重演。 我问佛:何为对的人? 佛说:一见你 ,就笑的人;一见,你就笑的人&a…

ChatGPT为我们带来了什么?

近两周,AI频频占据头条。 “用三秒完成我一天的活。”ChatGPT为中国众多的小型、产业链分布绵长的跨境电商企业降低了获得定制化方案的成本。许多商家相信,ChatGPT还能处理大量的财务报表和数据分析模型,这也广大跨境电商不需要再花钱聘请外…

利用 ChatGPT 解决某些网站文章不允许复制粘贴的限制

如下图所示,假设我想把这段文字复制下来,但是在浏览器里点击右键,会遇到 禁止转载的错误提示,此时 Ctrl C 也不工作。 可以在 Chrome 开发者工具里,切换到 Element 图标,把想要复制粘贴的文字对应的 elemen…

ChatGPT能为ERP带来什么改变

ChatGPT是什么 几十年来,企业资源规划 (ERP) 系统一直是许多企业的支柱。企业通过ERP来完成业务数据的采集、归纳、整理,生成反映业务状况的各式经营报表。但是它也是一项需要投入巨大的人力资源和硬件设备的项目,比如ERP基础数据的录入&…

为什么ChatGPT用Python实现?

可能你不知道, ChatGPT这个网站的后端居然是用Python实现的。 在一些人眼里,Python只能用来写写脚本、搞搞爬虫、做些小项目之类的,其实这是对Python的最大偏见。 因为Python早就被证明可以应用在大型项目中,特别是国外很多明星…

ChatGPT为什么那么火?

ChatGPT自推出以来,因其多样化的玩法,受到了世界各地互联网爱好者的热捧。打开 Google 关键字分析工具,我们可以看到,美国地区的ChatGPT 词条月搜索量已经达到 36 万次,热度持续不减。根据最新的消息,微软将…

反其道而行,大学教授鼓励学生用 ChatGPT 写论文

整理 | 屠敏 责编 | 张红月 出品 | CSDN(ID:CSDNnews) 新 AI 工具 ChatGPT 的到来,正在教育圈呈现出冰火两重天的态势,教授们几家欢喜几家愁。 这不近日,来自宾夕法尼亚大学沃顿商学院的一位专门研究创…

ChatGPT团队揭秘:3清华、1北大、1华科

Datawhale分享 分析:ChatGPT团队,来源:AIGC开放社区 Aminer和智谱研究发布了《ChatGPT团队背景研究》报告,深度揭示了这款火爆全球应用的背后团队的总体人员架构。 调查发现,ChatGPT团队只有87人,其显著特…

ChatGPT 团队阵容揭秘:3清华、1北大、1华科

程序员的成长之路 互联网/程序员/技术/资料共享 关注 阅读本文大概需要 3.5 分钟。 来自:Aminer和智谱研究 Aminer和智谱研究发布了《ChatGPT团队背景研究》报告,深度揭示了这款火爆全球应用的背后团队的总体人员架构。 调查发现,ChatGPT团队…

用ChatGPT写论文,震惊了!

当代研究生内卷现状—— 每天在实验室熬到半夜鸡叫,but,该有的实验数据一个也没得。 为了准备组会前一天呕心沥血搞ppt,but,老师的一句论文进度怎么样,瞬间颤抖。 那个总是抓住空隙打游戏的学弟发了一篇一作二区&#…

什么?还能让ChatGPT自己给自己写提示(Prompt)?

作者:ChenZhen 博客地址:https://www.chenzhen.space/🌐 版权:本文为博主 ChenZhen 的原创文章,本文版权归作者所有,转载请附上原文出处链接及本声明。📝 如果对你有帮助,请给一个小…

算法趣题-Q37

一、问题描述 二、问题分析 一开始,我使用了贪心的方式(也在C/C实现中,是错的),认为短视能够获得好的结果,运行结果确实是13步最少,但是路径却不是数组路径,debug发现在0开始的贪心路…

一些通过数学分析解决的算法题汇总

写在前面 如果觉得写得好,或者有所帮助,记得点个关注和点个赞,不胜感激! 我发现最近经常会遇到一些需要通过数学分析去解决的问题,做的时候想着各种方法,然后看到题解,发现可以用数学分析的方式…

演示求解中学数学题(Mathematica)

#高二解析几何题# 在[-3,4]区间上动曲线2x^24xc跟曲线1/3x^3x^2x有两个公共点,求c的取值范围. (现在高中的数学题难度已经算是高了;需要高等数学知识了) 直接求解: ClearAll["Global*"]; xmin -4; xmax 5; ymin -15; ymax 50; \ xnum 4; ynum 2; v Table[Ma…

算法-数学题

目录 50. Pow(x, n)54. 螺旋矩阵剑指 Offer 10- I. 斐波那契数列169. 多数元素剑指 Offer 39. 数组中出现次数超过一半的数字 191. 位1的个数剑指 Offer 15. 二进制中1的个数剑指 Offer 56 - I. 数组中数字出现的次数剑指 Offer 56 - II. 数组中数字出现的次数 II剑指 Offer 58…

文心一言 VS chatgpt (15)-- 算法导论3.2 4~5题

四、函数 ⌈ lg ⁡ n ⌉ ! \lceil \lg n \rceil ! ⌈lgn⌉! 多项式有界吗?函数 ⌈ lg ⁡ lg ⁡ n ⌉ ! \lceil \lg \lg n \rceil ! ⌈lglgn⌉! 多项式有界吗? 文心一言: chatgpt: 对于第一个问题,函数 ⌈ lg ⁡ n…