搞不定高考的ChatGPT,原来只有小学4年级水平

夕小瑶科技说 原创
作者 | Python

之前,复旦大学的研究者让ChatGPT参加了中国高考,发现成绩惨不忍睹(参见推送),其中理科数学竟只有20多分。这次,小米AI lab的研究者们给模型降低一下难度,找了1700道中国小学数学题,测试了10个大语言模型。实验表明,ChatGPT只能通过小学4年级水平,而GPT-4可以小学毕业。同时,国产大模型如Baichuan、MOSS、ChatGLM2等表现较差。让我们来看看吧。

论文题目:
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

论文链接:
https://arxiv.org/pdf/2306.16636.pdf

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

数据集

本实验使用的小学数学题数据集CMATH获取自开源的小学练习册和考卷。如下图所示,每道题标注了年级(Grade),推理步数(#Steps)与最大有效数字位数(#Digits)来标示难度。

数据集的统计信息

实验结果

实验设置上,作者只采用了零监督设置,没有使用CoT等技巧。作者表示这样才能最原生态地评价大模型。但这样可能也会让模型表现偏低。

各个年级的题目上,实验结果如下图所示。可以看到,GPT-4可以在所有年级的题目中拿到60分以上的成绩,而ChatGPT只能达到4年级及格的水平。国产大模型中,只有ChatGLM2与Ziya-LLaMA-13B能达到2年级及格的水平,其它模型在一年级的问题中也都难以得到50分以上的成绩。

不过,即使GPT-4成绩相对最好,大家回想一下自己小学时的成绩,可能还是要比GPT-4强不少的。

接下来观看不同模型对需要不同推理步骤的问题,与不同计算位数的问题的表现,也可以看出,当推理步数较多或数字位数较大时,国产大模型表现下滑明显。

不同推理步骤模型表现

不同数据位数模型表现

作者还尝试在问题中增加干扰条件(Distractors)来检测大模型的鲁棒性。

增加干扰条件的问题样例

实验结果表明,GPT-4具有较强的抗干扰能力,而其他大模型在抗干扰上表现不佳。

增加干扰条件的实验结果

总结

该文用中国小学数学题测试了GPT-4、ChatGPT与国产大模型。实验结果表明,GPT-4可以较好地解答中文小学数学题,但和人类相比还有差距;即使是面对中文试题,国产大模型与OpenAI的产品之间还有很大距离,我们还需要进一步加强国产大模型的研究。

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!
长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。
微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28278.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《聊聊我的故事 | 谈谈自己大学的收获,以及毕业的求职经历》

1.初进校园,实现最初的梦想 还在读高中的时候,心中就非常向往大学的生活,希望自己可以快一点进入大学。记得老师经常对我们说,你们现在辛苦一点,等到进入大学后就会轻松很多了。因此,心中便一直都有一个目…

毕业后的感言

我们毕业了,毕业季分手季。我目睹了那些不舍得眼泪。其实在那个时候我发觉嘴上说自己是一个没心没肺的人是不现实的。我居然也被赤化了。我居然也有心酸,也会难过。甚至对自己的前女友说有点不舍。毕业后祝你幸福! 回首大学,我没有遗憾&#…

毕业季心得

活动地址:毕业季进击的技术er 👉目录 前言学习背景敲下的第一行代码对未来的规划想对大家说的话最后 前言 时光荏苒,转瞬即逝,如白驹过隙一般。在这炎炎盛夏,我们又迎来了毕业季,我是一名在校生&#xff0c…

毕业感言

入学,满怀憧憬。不同的梦想,共同的行动。 大一,木头木脑。队列、口号、训练,身体是父母的,生活是队里的。 大二,徘徊迷茫。游荡在知识的海洋,寻找着未来的方向。 大三,低调做事。…

【毕业季】这四年一路走来都很值得——老学长の忠告

活动地址:毕业季进击的技术er 大家好,我是路飞! 又是一年毕业季,大学四年还没来得及好好体验校园生活,就匆忙收尾了!这四年时光里,有过目标和追求,也有过遗憾和不舍,从四…

关于毕业求职的就业经验-写给我亲爱的校友们

提示:希望下面的文章对大家能有所帮助 文章目录 前言一、毕业季的几种选择?1.考研2.就业3.其他 二、到了毕业季应该怎么去找到自己心怡的工作?三、需要掌握的基本技能(以我嵌入式开发角度)?四、该怎么去跳槽…

博士毕业答辩会上的感言——余子濠

今天余子濠终于博士毕业了! 余子濠是孙凝晖老师和我共同指导的博士生,他这个博士,读了整整八年。 今天的答辩会也是讨论得尤其热烈,答辩委员们提出了很多专业问题,子濠逐一做了解答。整个答辩会持续了130多分钟&#x…

new bing 使用出现“”]Sorry, looks like your network settings are preventing access to this feature.解决方法

1、问题 使用new bing时候如果出现“Sorry, looks like your network settings are preventing access to this feature”,请尝试用以下方案解决 2、解决 1、确保代理的节点在美国 2、在Edge dev中打开“https://www.bing.com/search?q要问的问题&setmktzh-…

又一家AI独角兽上市,AI的春天又来了?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 时隔两年,云天励飞终于上市了,但前方并非一片平坦开阔地,而是视觉AI竞技场。 刚刚,AI独角兽云天励飞技术股份有限公司(简称:云天励飞)登陆科…

阿里云 OpenSearch 重磅推出 LLM 问答式搜索产品,助力企业高效构建对话式搜索服务

1. 企业专属问答搜索 1.1. 世界知识 vs 企业专属知识 ChatGPT、通义千问正在引领搜索技术变革,其表现出的“什么都懂,什么都能聊”关键是依赖于底座大语言模型(Large Language Model, LLM)中压缩的世界知识。但无论是多强大的LL…

从2023年Q1,看当下的量子产业

光子盒研究院 一旦实现商业化,量子计算将带领人类进入一个全新的领域。 今天,人工智能(AI)、ChatGPT等大语言模型的处理能力受限于芯片有限的表面积:超过一定数量的GPU,每个GPU的批处理量就会变小——进一步增加数量反而会增大成本…

华为ENSP的Stelnet、直连、串口连接、telnet连接登录

华为ENSP设备登录的几种方式 一、直接打开终端窗口,启动设备后,直接双击设备即可,如下图所示: 二、用ENSP中的PC连接线CTL到设备的console登录 步骤1:在左侧的连线中找到CTL线单击(如果没有CTL线说明ENSP…

华为模拟器:ENSP,不同vlan间通信

拓扑图 创建好拓扑后,配置pc电脑的ip地址与网关地址 第三步打开SW1交换机进行vlan划分 这里是进入视图模式下后创建vlan后,进行端口绑定vlan 代码: interface GigabitEthernet 0/0/1 进入端口 port link-type access port default vlan 10 设置access绑定vlan 第二台pc与第…

华为太难了,出海或面临美国新生通信设备商的狙击

据分析机构给出的2021年通信设备市场的数据,美国再次拥有了一家通信设备商,它就是思科,并且思科已成为全球第五大通信设备商,这对于努力寻求出海的华为来说无疑将成为新的阻力。 由于众所周知的原因,华为的通信设备在海…

【教程】华为鸿蒙系统连接代理后无法上网问题的解决方案

转载请注明出处:小锋学长生活大爆炸[xfxuezhang.blog.csdn.net] 以Clash for Android为例。 情景描述 开了代理后,手机无法上网,甚至百度都打不开。关闭代理后,能正常上网。 问题分析 其实是被系统自动关后台活动了。因此只需将…

华为nat,acl简单应用,华为设备实现外网通信

转载至:华为nat,acl简单应用,华为设备实现外网通信_benjaminsBlog的博客-CSDN博客 华为外网通信 acl ,nat 1. 如图所示外网已经实现通信 2. 公网路由器配ip就不说了 3. 首先先做nat转换使内网全部用户可出去公网 命令如下 首先…

ggplot2点图+线性趋势+公式+$R^2$+p值

正文 先看效果。 R语言代码如下&#xff0c; data("faithful") library(ggplot2) p <- ggplot(faithful,aes(xeruptions,ywaiting)) geom_point() stat_smooth(methodlm,formula y~x,colourred)model.lm<-lm(formula waiting ~ eruptions, data faithf…

【Python】均值回归策略回测(日内高频数据)

文章采用均值为SMA(close, time_period 3日)&#xff0c;利用(收盘价 - 三日均线)计算偏离程度。 如果大于阈值(首个收盘价的2%)则开仓买入&#xff08;卖出&#xff09; 如果收盘价穿过均线说明均值偏离情况消失平仓。 文章采用Tick高频数据、也可以切换日收盘价数据进行改…

利用EXCEL函数LINEST进行统计学中的回归分析

文章来源&#xff1a;实战统计学 作者&#xff1a;梁斌炜 本文介绍统计学中的一元和多元线性回归&#xff0c;并通过EXCEL自带的统计函数LINEST、INDEX进行手工计算&#xff0c;再通过EXCEL数据分析工具包进行自动计算。 由于很多复杂的EXCEL自动化程序&#xff0c;需要用到自动…

Linear Regression 线性回归

Linear Regression 线性回归 问题描述构建模型损失函数&#xff08;Loss Function&#xff09;梯度下降&#xff08;Gradient Descent&#xff09;Learning Rate的选择求取损失函数最小值正则项总结代码实现一次模型二次模型二次模型 Adamgrad五次模型五次模型 (With Regulariz…