ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

夕小瑶科技说 原创
作者 | 小戏、Python

在 OpenAI GPT-4 发布时发布的《GPT-4 Technical Report》中,其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现,通过让 GPT-4 去完成美国的 AP 课程及考试,来评估 GPT-4 在多个学科中的性能。如下图所示,GPT-4 在大量课程中都取得了令人印象深刻的成绩,并且在一些 GPT-3.5 表现不佳的课程,如化学、宏观经济、物理与统计学中都获得了极大的提升

但是如果细看上面这张图,可以发现,GPT-4 在 AP 英国文学中表现不尽如人意,对于一个学习了大量语料知识的语言模型,这一点可能会让人感到费解。当然这里存在一个评估问题,对于自由写作的文本而言,OpenAI 并没有公布它们的评估标准,如果缺少这种细化的评估标准,很难直接得到一个 GPT-4 不擅长英国文学题的结论。

由此,立足于教育的领域,来自德国帕绍大学的研究者们组织了一次细致的评估工作,其主题在于“大模型可以写好议论文(Argumentative Essays)吗?”,通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准,聘请了 111 位一线的高中教师对大模型生成的问题进行评分,这篇论文发现,大模型在作者构建的评分标准中,得分普遍高于德国高中生写作的议论文,但是另一方面,人类的写作与 AI 的写作在风格上存在显著的差异,人类倾向于在议论文中更多的表达自己的态度与认知结构,而 AI 则更多的使用高级的、复杂的、更“科学”的语言(名词化的结构)去进行论证。而在风格多样性方面,从GPT-4 到 GPT-3.5 迈出了一大步,GPT-3.5 的语言多样性仍然显著低于人类,但是 GPT-4 的语言丰富度已经开始显著高于人类

论文题目:

AI, write an essay for me: A large-scale comparison
of human-written versus ChatGPT-generated essays

论文链接:

https://arxiv.org/pdf/2304.14276.pdf

大模型研究测试传送门

ChatGPT传送门(免墙,可直接测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):

https://gpt4test.com

如果带着问题出发,这篇论文核心主要是希望解决三个方面的问题,分别是:

  1. 基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文方面表现如何
  2. 大模型生成的文章与人类撰写的文章相比如何
  3. 大模型写作相较于人类突出的语言特征是什么

带着这三个问题,论文设计并实施了一套完整的评估流程。首先,论文作者从一个议论文语料库(essayforum)中选取主题,essayforum 是一个拥有大量高中生用户的活跃的文本写作社区,许多非母语的高中生经常去此社区去获得对自己作文文章的反馈。essayforum 包含有 90 个主题的文章,主题范围从“学生应该被教育去竞争还是合作?”到“报纸在未来会被取代吗?”等等,每个主题都会有一个由人类撰写的文章被上传并在论坛内进行讨论,这些文章平均约 19 个句子,接近 400 余个单词。通过设定不同的主题,论文作者设置了“在【主题】上写一篇大约200字的文章”的 Prompt 输入 GPT-3.5 与 GPT-4

在获得了 AI 的写作文章后,论文作者又组织了针对评分者(高中老师)的关于 ChatGPT 基础知识的培训讲座,参与老师的主要所在学科包括语言(英语,法语和德语),宗教,伦理和科学等等。在两个小时的讲座与四十五分钟的讨论后,参与教师收到了关于文章评分的问卷,这份问卷包含了文章评估相关的七个评估标准,分别是:

  • 主题完整性
  • 逻辑
  • 表达
  • 语言掌握程度
  • 深度(复杂度)
  • 流畅程度
  • 语言结构

具体量表如下图所示,每类指标需要专家进行打分,分值从0-6,0 分最低,6 分最高。每位参与者都会被展示六篇随机选择的文章,在评估完成后,结果将提交到系统中供论文作者统计。

而进一步的,为了将 AI 生成的文章与学生写作的文章进行对比,论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征,使用计算语言学的方法对这六类特征进行统计处理。其中词汇多样性方面,论文使用文本词汇多样性度量(MTLD)确定词汇丰富程度,在句法复杂性方面,论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性,在名词化方面,论文统计了具有诸如“-ion”,“-ment”,“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数,在情态动词与认知标记方面,论文都采用了词性标注的方法进行识别,以统计如“我认为”,人们认为”,“在我看来”这类认知标记的出现频次。而在话语标方面,论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计。

最终,整体文章评分的分值如上图所示,几乎对于所有的评价指标,都是学生撰写的文章评分最低,GPT-3.5 居中,GPT-4 评分最高,上图右侧的小提琴图可以带来更加直观的展示。

而分析计算语言学层面统计的各个指标,如上图所示,可以发现人类撰写的文章与 ChatGPT 撰写的文章差异显著,一方面,当涉及到文章的表达能力和复杂性时,人类和大模型之间的差异最小。另一方面,语言掌握能力差异显著大于其他所有的差异(这一点结合写作文章的主要来自非母语高中生似乎表明差异主要来源于语言本身的熟练程度上),并且另一点显著的差异在于 AI 更多的使用名词化构成更加复杂的句子,而人类则更加趋向于使用情态动词与认知标记,并且人类词汇的多样性要高于 GPT-3.5 但低于 GPT-4。

除了模型与学生写作之间的对比外,模型与模型之间的对比也能揭示一点模型的进步方向,如虽然 GPT-4 在几乎所有指标上的平均值都大于 GPT-3.5,但只有逻辑、词汇、文本链接与复杂度中差异是显著的,即 GPT-4 对 GPT-3.5 真正的提升主要来源于这四个方面。

某种程度上,这篇文章证明了人们关于 AI 在教育应用中的许多担心并非无的放矢,AI 可以高质量的完成议论文的写作预示了未来一个根本性的改变“我们或许要重新定义‘作业’这种东西了”,换言之是去思考当我们希望学生去练习自己的写作时,到底是希望他/她通过完成这样一篇文章(譬如国内的高考作文题)而获得什么样的能力,而并不是简单的对网格纸上的文字一扫而过给出一个四五十分的作文分数。

事实上,GPT-4 的作文能力对语言的教学的意义有点类似于计算器的出现对数学教学的意义,对教育工作者而言,GPT-4 的出现应当使得老师与作为这些模型使用者的学生一道去反思课程教学的本质以及何时去恰当的使用这些工具,AI 可以完成课程作业事实上与课程的教学目标本身并不冲突,尽管在短期内教学的目标可能需要被迫的进行调整,比如之前多所高校禁止使用 ChatGPT 的新闻。但是就好比计算不是数学的本质一样,议论文必然也不是写作的本质,写作能力的训练与写作工具的使用并不冲突,真正需要改变的,从来应当是教育理念与教育方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9587.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刚刚!ChatGPT演示即将上线王炸功能!不仅推出官方版AutoGPT,还能联网,支持处理Excel,发推购物一条龙!...

转载自量子位 OpenAI官方AutoGPT,要来了! 就在AutoGPT项目破10万Star之际,OpenAI也放出重磅炸弹,由联合创始人格雷格布洛克曼(Greg Brockman)亲自现场演示了ChatGPT即将上线的新功能。 比如要一张这样有氛围…

【历史上的今天】7 月 10 日:iOS App Store 问世;台积电创始人出生;第一台被“越狱”的 iPhone

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 7 月 10 日,在 1856 年的今天,交流电的发明者尼古拉特斯拉(Nikola Tesla)出生。特斯拉被认为是电力商业化的重要…

沙龙|AI iPhone时刻来临!如何获得登上类ChatGPT的船票?

出品|网易科技数字星球 作者|袁宁 编辑|丁广胜 兴奋麻了!还没从ChatGPT带来的震撼中回过神来,过去几天GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言相继引爆,互联网巨头纷纷抢…

来自 ChatGPT 的威胁?谷歌、百度纷纷入局,苹果被迫“开卷”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 近年来,AIGC 应用可谓是多处开花,成为了科技巨头的“必争之地”。 随着 ChatGPT 在互联网上“高热不下”,除了拍案叫绝的聊天能力以及惊人的准确率备…

苹果 App Store 出现山寨ChatGPT;Anthropic宣布获得4.5亿美元C轮融资

🚀 中国互联网协会提醒公众警惕“AI换脸”的新骗局 中国互联网协会提醒公众警惕“AI换脸”的新骗局,不法分子利用AI技术通过声音合成、伪造面部表情等实施诈骗。 公众应加强个人信息安全与防范措施,如加强个人信息保护、防止信息泄露、安装…

论文阅读 A Survey of Large Language Models 3

文章目录 能力评估基础任务语言生成知识利用率复杂推理 高级能力评估人类对戏与外部环境的交互作用扩展能力范围 公共基准测试和经验分析评价基准对LLM的能力进行全面分析 结论和未来方向 能力评估 为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估…

【NLP】大模型综述来了!一文带你理清全球AI巨头的大模型进化史

夕小瑶科技说 原创 作者 | 小戏,Python 如果自己是一个大模型的小白,第一眼看到 GPT、PaLm、LLaMA 这些单词的怪异组合会作何感想?假如再往深里入门,又看到 BERT、BART、RoBERTa、ELMo 这些奇奇怪怪的词一个接一个蹦出来&#xf…

LLMs模型速览(GPTs、LaMDA、GLM/ChatGLM、PaLM/Flan-PaLM、BLOOM、LLaMA、Alpaca)

文章目录 一、 GPT系列1.1 GPTs(OpenAI,2018——2020)1.2 InstructGPT(2022-3)1.2.1 算法1.2.2 损失函数 1.3 ChatGPT(2022.11.30)1.4 ChatGPT plugin1.5 GPT-4(2023.3.14&#xff0…

【人工智能】大模型综述 —— 一文带你理清全球AI巨头的大模型进化史

目录 导读 家谱树——大模型的前世今生 数据——大模型的力量源泉

山东大学软件学院2022-2023第二学期自然语言处理期末考试回忆版

山东大学软件学院2022-2023第二学期自然语言处理期末考试回忆版 前言 1、考试时间:2023/6/13 14:00 – 16:00 2、考试科目:自然语言处理(老师:SunYuQing) 3、考题语言:中文 4、考试形式:闭卷 …

ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力

大家好,我是HxShine。 今天分享一篇Google Research, Brain Team的一篇文章,SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS[1]:利用自洽性提高语言模型中的思维链推理效果 这篇文章方法非常简单但是效果非常好…

【ChatGPT 翻译】Language Models are Few-Shot Learners

【ChatGPT 翻译】Language Models are Few-Shot Learners 摘要 Abstract1 引言 Introduction2 方法2.1 模型和体系结构2.2 训练数据集2.3 训练过程2.4 评估 3 结果3.1 语言建模、完形填空和完成任务3.1.1 语言模型3.1.2 LAMBADA3.1.3 HellaSwag3.1.4 StoryCloze 3.2 闭卷问答翻…

ChatGPT的今天,早已被这本书预言了|文末赠书

最近,ChatGPT大火了!推出之后,ChatGPT只用了两个月就积累了1亿用户,随着越来越多的人开始用ChatGPT,发现他能做的东西越来越多,写论文、写作业、写文案、写代码都不在话下。 于是,各种稀奇古怪的…

OpenAI ChatGPT 3.5模型和清华开源ChatGLM-6B模型的对比,到底ChatGPT强在哪里(内含几个国内GPT可用途径)

目录 前言: (1)环境 (2)比较用例 (a)中文提问:用java写冒泡排序算法 (b)中文提问:a10,b6,不新增变量,怎么交换a和b的值&#xff…

当ChatGPT的子弹射中知乎

题图|视觉中国 毫无疑问,ChatGPT 已然成为 2023 上半年最有影响力的商业话题。 ChatGPT 横空出世仅百余天便让整个互联网都为之躁动,心有猛虎的公司都在寻找向上攀爬的入口——“文心一言”之于百度、“通义千问”之于阿里、百川智能之于王小…

OpenAI Translator - 基于 ChatGPT的最强开源 AI 划词翻译工具

为啥要造这个轮子? 我开发了一个 Bob 的插件 bob-plugin-openai-translator 使用 ChatGPT API 在 macOS 上进行全局划词翻译。 但是由于很多用户并不是 macOS 用户,所以特此开发了一个浏览器插件方便非 macOS 用户使用 ChatGPT 进行划词翻译。 既是浏…

Mac最先进的API工具-RapidAPI for Mac

一、前言 当使用 Mac 进行接口测试的时候,一般都会想到接口测试工具 Postman、Jmeter。 Postman 以其页面友好,功能简单,可以快速上手进行接口测试。而 Jmeter 除了测接口外,还可以进行接口自动化测试、性能测试等。 本篇将介绍…

【接口工具ApiPost】Mac系统安装(1)

ApiPost目前提供Window64位,Window32位、Mac、Linux版本的安装包下载。 ApiPost下载页:https://www.apipost.cn/download.html Mac系统安装 流程如下: 升级安装 初次安装打开后的界面 登录 账户登录: 微信登录 所以最后…

Mac 获取 App store下载的文件包 pkg

因为某种原因,我需要搞到 App store 中的某个软件的 pkg 安装文件,百度了半天,没一个能用的。。。不多bb,自力更生,直接开搞 我的系统是Big Sur 访达按CommandShiftG,进入 /private/var/folders 目录 这时…

与ChatGPT合作解析《三体》数学

最近都在讨论爆火的ChatGPT可能会替代10大职业,其中小编所在的媒体工作者就是其中之一,顿时有种危机感……于是开始试探ChatGPT这个竞争对手的真实实力——让它写一篇《三体》中数学问题的文章: 【ChatGPT】 根据上面生成的文章,…