【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)

ChatGPT真的“无敌”了吗????

当【ChatGPT】参加大学生计算机科学考试

  • 1.简介
  • 2.介绍
  • 3.ChatGPT(GPT-4对比GPT-3.5)参加计算机考试实验
  • 4.实验设计
    • 4.1实验介绍
    • 4.2 对ChatGPT提出问题
    • 4.3测试结果
  • 5. GTP-4
  • 6. 讨论

1.简介

我们邀请ChatGPT参加一项关于算法和数据结构的本科计算机科学考试。我们把它的答案手抄到一张考卷上,然后在盲测的情况下,随机选200名参与的学生。我们发现ChatGPT以20.5(满分40分)的成绩勉强通过了考试。这一令人印象深刻的表现表明,ChatGPT确实可以成功完成大学考试等具有挑战性的任务。同时,我们考试中的问题在结构上与其他考试相似,解决的家庭作业题,以及可以在网上找到的教学材料,这些材料可能是ChatGPT训练数据的一部分。因此,从这个实验中得出ChatGPT对计算机科学有任何理解的结论是不充分的。我们也评估了GPT-4带来的改进。我们发现,GPT-4比GPT-3.5多获得17%的考试分数,达到了普通学生的表现。

2.介绍

许多人已经注意到ChatGPT1的功能OpenAI的一种新型聊天机器人模型令人印象深刻,该模型甚至可以成功完成大学考试等具有挑战性的现实任务。事实上,已有证据表明这可能是事实。此外,对模型响应的评估通常不是盲目的,这可能是有问题的,因为众所周知ChatGPT会产生需要解释的奇怪答案。因此,尽管有很多关于这个话题的讨论,到目前为止,关于ChatGPT在大学考试中的能力的系统证据很少。

3.ChatGPT(GPT-4对比GPT-3.5)参加计算机考试实验

我们提出了一个简单但严格的实验的结果,评估的能力。关于算法和数据结构的本科生计算机科学考试。我们在常规大学考试的同时进行了这个实验,这使我们能够在一个盲设置中与学生一起评估模型的反应。我们以简单的标准化格式提出了不同的考试问题,使ChatGPT能够对所有考试问题给出明确的答案。
在这里插入图片描述

表1:在我们的考试中,ChatGPT在10个不同的练习中获得的分数,与参加我们考试的200名学生获得的平均分数进行比较。

  • 第一行描述了ChatGPT使用GPT-3.5基本模型获得的点。这是本文讨论的主要实验的结果,其中模型反应与学生反应一起盲目评分。ChatGPT-3.5获得了20.5分(满分40分)。
  • 第二行描述了ChatGPT使用GPT-4基本模型获得的点。在这里,模型响应根据主实验中使用的相同评分方案进行评分,但评分不是盲目的。我们估计ChatGPT-4将获得约24分,达到平均学生的表现。
  • 第三行表示参加考试的200名学生获得的平均分数。

实验的结果是,ChatGPT将以20.5分(满分40分)的成绩侥幸通过考试。这令人印象深刻,但也突出了当前模型版本的局限性。特别是,该模型的表现比参加考试的平均学生的表现更差(平均学生获得约24分,比较表1)。就考试相对标准化而言,ChatGPT的混合表现是有趣的。类似的考试在世界各地都有,并且涵盖了很多关于主题的信息。
我们也评估了GPT-4带来的改进。我们发现,使用GPT-4基础模型的ChatGPT在考试中比使用GPT-3.5基础模型的ChatGPT多获得17%的分数,达到了普通学生的成绩。

4.实验设计

4.1实验介绍

我们考虑一个关于算法和数据结构的入门课程的考试。考试内容包括排序算法、图遍历和动态规划。总的来说,考试涵盖的主题在世界各地都以类似的方式进行教学。考试包含不同类型的问题,包括多项选择题、写小题、写伪代码和画图。进行这个实验的想法并没有把考试中的练习偏向于ChatGPT的能力。

4.2 对ChatGPT提出问题

在这里插入图片描述
我们在与模型的19个不同的对话中提出了考试问题,依赖于考试的latex源文件。我们告诉模型,我们正在问计算机科学考试中关于算法的问题,并要求它提供简短、准确的答案,在整个过程中,我们并没有试图设计提示来引导模型走向更好或更差的答案,唯一的目标是,该模型将为所有问题提供明确的答案。
一些考试题目涉及数学、伪代码或图形。在本例中,我们简单地使用来自考试的latex源代码提示模型,如下例所示:
在这里插入图片描述
例如,当我们要求模型写一个小的证明时,它会用乳胶方程来回应。类似地,当我们要求模型完成伪代码时,它以有效的方式完成了给定的伪代码。
在与模型进行对话之后,我们将答案手写在一张试卷上,在这样做的过程中,我们当然将模型的所有乳胶输出“渲染”到纸张上。

4.3测试结果

在本节中,我们将讨论GPT-3.5的主要实验结果。所带来的改善GPT-4将在下一节讨论。主要结果是,ChatGPT获得20.5分(满分40分),通过了考试。由于要通过考试至少需要20分,ChatGPT仅以非常微弱的优势通过。
在考试的其他部分,ChatGPT给出了错误的答案,有时甚至是奇怪的答案,(如下图)特别是,该模型在涉及结构化输出(不是伪代码)的所有练习中都遇到了困难。
在这里插入图片描述

5. GTP-4

在本节中,除了本文考虑的主要实验外,我们还评估了GPT-4带来的改进。GPT-4技术报告在许多不同的考试中比较了GPT-4和GPT-3.5,并报告了巨大的性能提升(OpenAI, 2023)。然而,由于报告中使用的数据集不可用,因此很难复制和评估这些结果。然而,有人指出,有证据可以对训练数据进行测试。
总的来说,ChatGPT-4获得了24分(满分40分)。这是3.5个百分点,即17%ChatGPT与GPT-3.5基础模型。有趣的是,这意味着ChatGPT-4在我们的考试中与普通学生的表现相当。虽然改进看起来很小,但实际上它确实意味着ChatGPT-4能够回答一些更有挑战性的多项选择题,这些问题是以前版本的模型难以回答的。

6. 讨论

我们的实验结果与现有的研究一致,这些研究记录了大型语言模型令人印象深刻的能力,以及它们严重的局限性。我们想强调的是,ChatGPT能够通过我们的考试这一事实并不意味着它对计算机科学有任何理解,就像我们可能期望它能够通过考试的人那样。当然可以合理地假设ChatGPT在培训过程中看到了许多与我们考试中相似的练习和解决方案。一般来说,为了了解像ChatGPT这样的模型的能力和局限性,需要进行更多的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2680.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[DeepSpeed]初代chatGPT模型部署实践

DeepSpeed Chat 部署方式 中间遇到很多坑,解决方法都写这里了DeepSpeed 部署中bug以及解决方法 环境 基于阿里云GPU 云服务器部署实践 操作系统版本: Ubuntu 18.04 GPU 驱动版本: 470.161.03 GPU 型号: A100-80G CPU &#…

澳洲学生用ChatGPT代写?澳洲多所高校使用全新反击工具检测

朋友们听句劝 ChatGPT可太危险了 ChatGPT有多火?据2月1日瑞银发布的一项研究报告显示,仅仅发布两个月,ChatGPT月活跃用户已达1亿,这是历史上增长速度最快的应用。要知道达成1亿用户的时间,Instagram用了2.5年&#xf…

全网爆火的ChatGPT可代写论文,论文还要亲手写吗?

ChatGPT将重塑人类搜索、收集和整理信息的模式,比如说以往做文献调研,需要从搜索引擎、论文数据库等不同渠道去找相关的文献,筛选、识别出对自己可能有用的文献,然后根据重要性的不同,分别略读、精读,分析整…

ChatGPT推出第四代GPT-4!不仅能聊天,还可以图片创作!

3月15日凌晨,OpenAI震撼发布了多模态预训练大模型 GPT-4。 根据官网发布的通告可以知道,GPT-4 实现了以下几个方面的飞跃式提升:强大的AI创作识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够…

完整攻略,如何利用ChatGPT搞科研!

Datawhale分享 最新:ChatGPT应用,来源:量子位 这位研究僧,GPT-4都发布了,你还在纯人工搞科研吗? 已经有人实测: ChatGPT科研全流程都能用,尤其是对于英语非母语的科研人员&#xff…

英文论文要怎么查重?

本文几乎浓缩了英文论文查重全部的精华回答。差不多花了我1个晚上的时间整理,看了类似话题的50多个回答,把最有用的回答,加上我自己的的深度体会,分成6个模板整理给大家,绝对让你大呼过瘾,醍醐灌顶&#xf…

Paper简读 - ChatGPT相关的InstructGPT

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128866056 发表于NLP会议:NeurlPS,EMNLP EMNLP: Empirical Methods in Natural Language Processing&a…

论文的查重到底怎么查?

随着社会对教育的重视程度不断提高,论文的查重也越来越严格。毕业论文查重率高将直接影响学生的正常毕业,期刊论文的查重率高将直接影响论文的顺利发表,因此很多人在撰写完论文初稿后就会进行自查降重,那么各类论文的查重标准是什么?论文查重到底是怎么查的呢?查重…

让ChatGPT干正事,如何查找靠谱的真文献写论文

文 / 高扬(微信公众号:量子论) 感谢大家的提问,这些问题可以促进我去探索和学习。 我在公众号里输出的文字其实也是我的学习笔记,特点比较突出:字少,图多,纯干货。 这也是咱们理工男…

ChatGPT小技巧:论文降重

免费查重网站 万方免费查重(应届生免费一次):chsi.wanfangtech.net PaperDay(标准版永久免费,旗舰版每日限免):www.paperday.cn 论文狗(每日免费一次):www.…

ChatGPT论文降重:从97%到5%

ChatGPT在学术论文方面的功能非常强大,能够一键辅助你完成各种复杂的学术任务和课题,然而ChatGPT在论文降重上的表现就像一个"傻子"。 当你用ChatGPT给论文降重的时候,你会发现他很不听话,即使你要求他不能有重复、相同…

教授误用 ChatGPT 来论文“查重”,学生:不仅挂科了,我差点拿不了毕业证!...

因为教授误用 ChatGPT,全班学生的毕业差点成为一个大问题。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 曾几何时,震慑无数学生的「学好数理化,走遍天下都不怕」Slogan 在 AI 互联网时代,正在变得失…

用chatgpt写insar地质灾害的论文,重复率只有1.8%,chatgpt4.0写论文不是梦

突发奇想,想用chatgpt写一篇论文,并看看查重率,结果很惊艳,说明是确实可行的,请看下图。 下面是完整的文字内容。 InSAR (Interferometric Synthetic Aperture Radar) 地质灾害监测技术是一种基于合成孔径雷达…

chatGPT优化论文会导致论文重复率升高,实测段落重复率从23.2%狂飙到70.7%

我们让chatGPT对段落文字换一种表述,得到的结果是,转换后的内容能够完整的合乎逻辑的表述,但重复率从23.2%狂飙到70.7%,因此不建议使用chapGPT来去重。 转换前的文字重复率:23.2% 转换后的重复率:70.7%…

超详细|ChatGPT辅助论文降重教程100%降至13%

超详细|ChatGPT辅助论文降重教程100%降至13% 1. ChatGPT指令1.1 同义词替换1.2 同义词替换改变语序1.3 扩充字段1.4 学术化内容1.5 扩充删减字段学术化内容 2. 重复率对比2.1 对比标记情况2.2 最终结果 1. ChatGPT指令 1.1 同义词替换 对比分析,发现ChatGPT中文的…

重磅来袭,ChatGPT官方的掌上神器目前仅支持IOS

今天凌晨,OpenAI 推出了 ChatGPT 的 iOS app,在这个开放的世界里,智能化的 AI 功能早已经突破了人类的想象力。而 ChatGPT 确实不会让我们失望,它的真「iPhone 时刻」来了!从现在起,我们可以在 iPhone 上使…

突发!OpenAI 重磅发布 ChatGPT iOS 客户端!无须手续费,直接开通Plus。

大家好,我是鱼哥! 今天凌晨,OpenAI又重磅宣布推出ChatGPT的 iOS移动版本。也就是说,从今天开始iOS用户将可以在手机和iPad上免费下载和使用ChatGPT。 整体来说,iOS移动端的ChatGPT主打简洁流畅的风格,全力提…

通俗易懂chatGPT原理

来自:无数据不智能 目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。 训练过程总览理清演化路径预训练(pretrain) GPT-3概述GPT 3模型的理念GPT-3如何学习数据集指令微调 (Instr…

最新出炉:台大李宏毅老师关于ChatGPT原理剖析的三部曲

李宏毅【生成式AI】ChatGPT 原理剖析 (1/3) — 对ChatGPT的常见误解 李宏毅【生成式AI】ChatGPT 原理剖析 (2/3) — ChatGPT背后的关键技术: 预训练 (Pre-train) 李宏毅【生成式AI】ChatGPT 原理剖析 (3/3) — ChatGPT 所带来的研究问题

ChatGPT原理详解+实操

言 ChatGPT已近火了快大半年了,从去年刚出来的时候小编就关注了一下,也具体的使用过,然后就惊为天人,再然后就没有然后了,因为小编那段时间沉迷于AIGC了。ChatGPT今年开年后更是火的一塌糊涂,无论是行业内…