【NLP】ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

2fd0069e1495112b1e0f5a64d3e5fd71.png  夕小瑶科技说 原创
 作者 | 小戏、Python

在 OpenAI GPT-4 发布时发布的《GPT-4 Technical Report》中,其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现,通过让 GPT-4 去完成美国的 AP 课程及考试,来评估 GPT-4 在多个学科中的性能。如下图所示,GPT-4 在大量课程中都取得了令人印象深刻的成绩,并且在一些 GPT-3.5 表现不佳的课程,如化学、宏观经济、物理与统计学中都获得了极大的提升

fbf17f258c66a417db662679e143f015.png

但是如果细看上面这张图,可以发现,GPT-4 在 AP 英国文学中表现不尽如人意,对于一个学习了大量语料知识的语言模型,这一点可能会让人感到费解。当然这里存在一个评估问题,对于自由写作的文本而言,OpenAI 并没有公布它们的评估标准,如果缺少这种细化的评估标准,很难直接得到一个 GPT-4 不擅长英国文学题的结论。

由此,立足于教育的领域,来自德国帕绍大学的研究者们组织了一次细致的评估工作,其主题在于“大模型可以写好议论文(Argumentative Essays)吗?”,通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准,聘请了 111 位一线的高中教师对大模型生成的问题进行评分,这篇论文发现,大模型在作者构建的评分标准中,得分普遍高于德国高中生写作的议论文,但是另一方面,人类的写作与 AI 的写作在风格上存在显著的差异,人类倾向于在议论文中更多的表达自己的态度与认知结构,而 AI 则更多的使用高级的、复杂的、更“科学”的语言(名词化的结构)去进行论证。而在风格多样性方面,从GPT-4 到 GPT-3.5 迈出了一大步,GPT-3.5 的语言多样性仍然显著低于人类,但是 GPT-4 的语言丰富度已经开始显著高于人类

论文题目:
AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays

论文链接:
https://arxiv.org/pdf/2304.14276.pdf

如果带着问题出发,这篇论文核心主要是希望解决三个方面的问题,分别是:

  1. 基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文方面表现如何

  2. 大模型生成的文章与人类撰写的文章相比如何

  3. 大模型写作相较于人类突出的语言特征是什么

带着这三个问题,论文设计并实施了一套完整的评估流程。首先,论文作者从一个议论文语料库(essayforum)中选取主题,essayforum 是一个拥有大量高中生用户的活跃的文本写作社区,许多非母语的高中生经常去此社区去获得对自己作文文章的反馈。essayforum 包含有 90 个主题的文章,主题范围从“学生应该被教育去竞争还是合作?”到“报纸在未来会被取代吗?”等等,每个主题都会有一个由人类撰写的文章被上传并在论坛内进行讨论,这些文章平均约 19 个句子,接近 400 余个单词。通过设定不同的主题,论文作者设置了“在【主题】上写一篇大约200字的文章”的 Prompt 输入 GPT-3.5 与 GPT-4

50cdcb1d857d1a1ae0d782d01c921464.png

在获得了 AI 的写作文章后,论文作者又组织了针对评分者(高中老师)的关于 ChatGPT 基础知识的培训讲座,参与老师的主要所在学科包括语言(英语,法语和德语),宗教,伦理和科学等等。在两个小时的讲座与四十五分钟的讨论后,参与教师收到了关于文章评分的问卷,这份问卷包含了文章评估相关的七个评估标准,分别是:

  • 主题完整性

  • 逻辑

  • 表达

  • 语言掌握程度

  • 深度(复杂度)

  • 流畅程度

  • 语言结构

具体量表如下图所示,每类指标需要专家进行打分,分值从0-6,0 分最低,6 分最高。每位参与者都会被展示六篇随机选择的文章,在评估完成后,结果将提交到系统中供论文作者统计。

88d7be9b96d1d5a8738fbb1dcd80d911.png

而进一步的,为了将 AI 生成的文章与学生写作的文章进行对比,论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征,使用计算语言学的方法对这六类特征进行统计处理。其中词汇多样性方面,论文使用文本词汇多样性度量(MTLD)确定词汇丰富程度,在句法复杂性方面,论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性,在名词化方面,论文统计了具有诸如“-ion”,“-ment”,“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数,在情态动词与认知标记方面,论文都采用了词性标注的方法进行识别,以统计如“我认为”,人们认为”,“在我看来”这类认知标记的出现频次。而在话语标方面,论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计。

1835e83a5c366b121622584b2df432c2.png

最终,整体文章评分的分值如上图所示,几乎对于所有的评价指标,都是学生撰写的文章评分最低,GPT-3.5 居中,GPT-4 评分最高,上图右侧的小提琴图可以带来更加直观的展示。

6cceda18abbcda51a5d5b9cfd6ec91a5.png

而分析计算语言学层面统计的各个指标,如上图所示,可以发现人类撰写的文章与 ChatGPT 撰写的文章差异显著,一方面,当涉及到文章的表达能力和复杂性时,人类和大模型之间的差异最小。另一方面,语言掌握能力差异显著大于其他所有的差异(这一点结合写作文章的主要来自非母语高中生似乎表明差异主要来源于语言本身的熟练程度上),并且另一点显著的差异在于 AI 更多的使用名词化构成更加复杂的句子,而人类则更加趋向于使用情态动词与认知标记,并且人类词汇的多样性要高于 GPT-3.5 但低于 GPT-4。

除了模型与学生写作之间的对比外,模型与模型之间的对比也能揭示一点模型的进步方向,如虽然 GPT-4 在几乎所有指标上的平均值都大于 GPT-3.5,但只有逻辑、词汇、文本链接与复杂度中差异是显著的,即 GPT-4 对 GPT-3.5 真正的提升主要来源于这四个方面。

某种程度上,这篇文章证明了人们关于 AI 在教育应用中的许多担心并非无的放矢,AI 可以高质量的完成议论文的写作预示了未来一个根本性的改变“我们或许要重新定义‘作业’这种东西了”,换言之是去思考当我们希望学生去练习自己的写作时,到底是希望他/她通过完成这样一篇文章(譬如国内的高考作文题)而获得什么样的能力,而并不是简单的对网格纸上的文字一扫而过给出一个四五十分的作文分数。

事实上,GPT-4 的作文能力对语言的教学的意义有点类似于计算器的出现对数学教学的意义,对教育工作者而言,GPT-4 的出现应当使得老师与作为这些模型使用者的学生一道去反思课程教学的本质以及何时去恰当的使用这些工具,AI 可以完成课程作业事实上与课程的教学目标本身并不冲突,尽管在短期内教学的目标可能需要被迫的进行调整,比如之前多所高校禁止使用 ChatGPT 的新闻。但是就好比计算不是数学的本质一样,议论文必然也不是写作的本质,写作能力的训练与写作工具的使用并不冲突,真正需要改变的,从来应当是教育理念与教育方式

da1cdcb3e91bc0766fae4f5a97547648.png
 

6c4d43eafa6e71f8abe0c83aab202ba6.jpeg

 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20592.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT:在商业领域的广泛应用|小智AI

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨OpenAI ChatGPT|GPT-4|GPT-3|人机对话|ChatGPT应用|小智ai|小智ai|小智ai|小智ai|小智AI|chatgpt小智AI 人工智能技术在商业领域的应用正日益普及,而ChatGPT作为下一代智能对话模型…

chatgpt赋能python:用Python办公自动化轻松完成繁琐重复的工作

用Python办公自动化轻松完成繁琐重复的工作 随着科技的进步,许多传统工作已经被自动化取代。而在许多职业中,办公自动化通常被认为是节省时间和减少错误的最佳方法。对于那些使用Microsoft Office,例如Excel、Word和PowerPoint等应用程序的用…

基于用户评论情感分析详细设计与技术实现

基于用户评论情感分析详细设计与技术实现 文章目录 基于用户评论情感分析详细设计与技术实现前言一、技术架构二、分析服务器构建1.1 创建flask项目1.2 编写数据库连接脚本,获取用户评论数据;1.2.1 引入库1.2.2 连接数据库获取数据1.2.3 测试 1.3 编写情…

情感分析的分类,情感分析模型有哪些,情感分析的应用场景,情感分析的发展趋势

1.情感分析的分类: (1)基于情感极性的分类:将文本的情感分为正向、负向和中性三类。 (2)基于情感维度的分类:将文本的情感分为喜欢、愤怒、悲伤、惊喜等多个情感维度。 2.情感分析模型&#x…

基于Twitter数据的情感预测与案例分析

导读 本次分享的是关于文本分析中的情感预测分析和主题分析的一个小科研项目,数据爬取自Twitter,主要内容分为3部分: 1.情感预测机器学习模型选择及建立 2.情感预测深度学习模型LSTM的介绍和建立 3.主题分析模型简介 01 # 情感预测机器学习…

CDGP认证|ChatGPT的出现,对数据治理行业冲击如何?

ChatGPT的出现对数据治理有很多好处,其中最明显的是提供了更高效、更准确和更自动化的数据处理和分析服务,可以帮助企业和组织更好地管理和利用数据资源,提高数据质量和决策效率。此外,ChatGPT还能够发现隐藏在大量数据中的信息和趋势&#x…

chatgpt赋能python:Python报错大全

Python报错大全 作为Python程序员,报错是我们经常遇到的一件事情。报错可以帮助我们定位和解决问题,但有时候错误信息并不直观,所以我们需要查找信息来帮助我们解决问题。在这篇文章中,我们将介绍常见的Python报错以及如何解决它…

GitHub开源神器,已获3k star!让你的 ChatGPT 不再报错!感受丝滑般体验!

点击上方“Github爱好者社区”,选择星标 回复“资料”,获取小编整理的一份资料 作者:GG哥 来源:GitHub爱好者社区(github_shequ) 这是GitHub爱好者社区第 71 篇原创文章 Hello,大家好&#xff0…

登高望远,一文解答 2023 年你最关心的前端热点问题

动手点关注 干货不迷路 本文预计阅读 25 min,建议先收藏后观看~ 一、刀光剑影的 2022 时光荏苒,这绝不平淡的 2022 年已经走上历史的黄页,新的一年也逐渐看不到故人回首的光影。感谢你对前端技术领域持续关注,我们一直在这里等你。…

千模大战鏖战正酣,大模型能否帮360重回巅峰?

ChatGPT问世后,互联网终于看到了变革的曙光。 回望互联网的征程,几乎每十年左右,就会因产品和技术的变革,而催生出全新的应用场景。 00年代,随着PC产品的逐渐成熟,桌面互联网成为时代的“主旋律”。在此背…

司马阅(SmartRead),最好用的中国PDF智能阅读工具!

在数字化时代,大量的信息以PDF(便携式文档格式)的形式存在。 处理和提取PDF文件中的信息可能是一项繁琐的任务,但现在有了司马阅(SmartRead),一款能够与PDF进行对话的智能工具,这一切变得更加简单和高效。…

国产开源大模型: 百亿参数“伶荔”,填补中文基础模型空白!

Datawhale开源 团队:深圳大学沈琳琳教授团队 Linly 伶荔说 中文语言大模型来啦! 大数据系统计算技术国家工程实验室副主任、深圳大学计算机与软件学院沈琳琳教授团队主持的人工智能项目“伶荔(Linly)”于今天隆重推出“伶荔说”系列中文语言大模型。 该…

Google 中文名发布 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 4 月 12 日,每年的这一天是世界航天日,全名载人空间飞行国际日;在 1961 年的 4 月 12 日,苏联空军飞行员尤里加加…

chatgpt赋能python:Python用Pi优化SEO的指南

Python用Pi优化SEO的指南 引言: 搜索引擎优化(SEO)已经成为了数字市场营销领域中至关重要的一部分。对于那些想要在数字领域获得成功的企业和个人而言,SEO是不可或缺的。Python是一种优秀的编程语言,现在,它在SEO中也变得越来越…

PDF工具Adobe Arcrobat Pro DC下载安装教程

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击查看学习资料) wx供重浩:创享日记 对话框发送:adobe 免费获取Adobe …

Python | Python的自我介绍(前世今生)

本文概要 本篇文章主要介绍Python这门语言的前世今生,适合刚入门的小白或者想了解Python历史的同学,文中描述很详细,具有一定的学习价值,感兴趣的小伙伴快来一起学习吧。 个人简介 ☀️大家好!我是新人小白博主朦胧的…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门AI智能问答应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门AI智能问答应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字&a…

CV不存在了?Meta推出最新AI模型SAM,计算机视觉领域的ChatGPT

4月5日,Facebook母公司Meta在推特宣布推出SAM模型(Segment Anything Model)并开源。该模型能够查找和分割图像和视频中的任何对象,实现一键抠图。同日,Meta还发布了自称有史以来最大的图像注释数据集,以及3…

canvas绘制微信海报分享

前言 最近公司在做一个面向餐饮的微信小程序,公司希望在小程序中嵌入关注公众号的功能,一开始是采用官方提供的official-account,配置公众号关注组件,方便用户快捷关注公众号,但是这个组件的场景限制比较多&#xff0…

各国疫苗接种进度(气泡图可视化)

全球疫情及疫苗接种进度可视化之四--各国疫苗接种进度 安装plotly库各国疫苗接种进度读取数据排除全球及大洲数据发现某些国家数据不全,需按日期进行补全取每百人接种量最高的10个国家 可视化绘制气泡图 全国疫情及疫苗接种进度可视化 全球疫情及疫苗接种进度可视化…