GRE作文用AI打分,已经20周年了:AI给中国考生的分数,远高于人类打分

栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项调查,这件事又成了热烈讨论的焦点。

VICE调查了美国的50个州,发现有至少21个州 (包括加州) 的教育系统,已经把AI当成作文打分的主要/第二主要工具,用在标准化考试里。

640?wx_fmt=jpeg

 蓝=AI打分,浅蓝=有试点,红=无AI打分,桃红=看学区,灰=未回应

这21个州里,只有3个州表示,人类也会参与作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下AI给的成绩。

问题是,标准化考试常常作为选拔依据,左右人类前途。AI打分的话,命运就在AI手里了。

这时,人们不免想起了GRE,这个20年前就开始用AI判作文的大前辈。

640?wx_fmt=jpeg

有有不少研究表明,包括GRE打分机器e-rater在内,许多AI评判文章的机制,都有明显的缺陷。

不过经年累月,AI不但没有被各种作文考试抛弃,反而越发受欢迎了。

于是,Hacker News网友开启了激烈的讨论,不到一日热度便有了330+。

GRE:机器比人更偏爱中国考生

早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开始用e-rater给作文打分了。

跟据官方信息,这个自然语言处理 (NLP) 模型,评分标准有以下8条:

· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

· 词汇复杂度/措辞 (Lexical Comlexity/Diction)

· 语法错误比例 (Proportion of Grammar Errors)

· 用法错误比例 (Proportion of Usage Errors)

· 机械错误比例 (Proportion of Mechanics Errors)

指拼写错、大小写错、标点错等等技术问题。

· 风格评论比例 (Proportion of Style Comments)

比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。

· 文章组织和发展分 (Organization and Development Scores)

· 地道用语 (Features Rewarding Idiomatic Phraseology)

当然,这只AI不止服务GRE。至少,托福和GRE一样,也是ETS出品的考试。

至于这套算法的缺陷都出在哪,ETS官方就做过不少研究,且从不避讳研究结果。

640?wx_fmt=jpeg

在1999、2004、2007、2008、2012和2018年的作文里,都能发现AI给中国大陆考生的分数,普遍比人类打分要高。

相反,在非裔美国人身上,AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。

ETS的一位高级研究员说:

如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。

再进一步,分单项来观察AI的打分情况。

会发现在全部考生里面,e-rater给中国大陆考生的语法 (Grammar) 和写作技巧 (Mechanics) 分,整体偏低;

而在文章长度和复杂单词的选用上,中国大陆考生的AI打分超过平均。最终,AI给大陆考生的总分,整体比人类打分更高。GRE作文满分6分,AI比人类打分平均高出1.3分

相比之下,在非裔美国人身上,AI比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。

640?wx_fmt=jpeg

不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。

不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

640?wx_fmt=jpeg

但ETS说,AI不是单独判卷,每篇AI打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。

所以,ETS认为考生并不会受到AI缺陷的不利影响。

不过对比一下,传统方法是两个人类同时给一篇文章打分;而当AI替代其中一人打分,相当于这个人的职责变成了复核。

成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和AI参与之前有差别了。

另外,AI的存在不止影响评分,也直接影响考生的应试策略。这些年,讨好AI的攻略越来越多:

640?wx_fmt=jpeg

来自ChaseDream论坛@竹林中人

还好,GRE有人类和AI一起打分。

可还有许多考试是直接交给AI判作文的:

不止GRE算法有问题

比如,VICE调查发现,犹他州把AI作为主要 (Primary) 作文评分工具,已经有些年头了。

州内的一位官员解释了原因:

手动打分除了耗费时间之外,也是本州一项重大开支。

所以,用AI来为写作评分,在降低成本的同时,能不能做到公平公正?

美国研究协会 (American Institutes of Research,AIR) 是一间非盈利机构,也是犹他州最主要的考试提供方。

关于交给AI打分的是怎样的题目,AIR给出了一个范本:

640?wx_fmt=png

这道题目是,看到一张海牛图像,考生要写出一个观察 (A) ,和一个推理 (B) 。

而AIR每年都会做出一份报告,评估一些新题目的公平性。

评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。

报告显示,2017-2018学年、三至八年级的写作考题里,有348题被判定为,对女生和少数族裔学生有轻微DIF;相比之下,对男生和白人学生有轻微DIF的题目有40

另外,还有3道题被判定为:对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

640?wx_fmt=jpeg

可能造成DIF的原因有多种,而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (@dahart) ,占据了Hacker News讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。

他说,孩子的作文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

640?wx_fmt=png

One More Thing

当然,AI判作文也不止美国才有。

去年,《南华早报》说国内已经有6万所学校靠AI批改作业,分布在全国各地。

其中,学生提交的英文作业,也是机器打分。作文批改系统来自酷句批改网,要理解文字的一般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、结构、主题等方面给出建议。

据说,AI和人类教师对一篇作文的评分,在92%的情况下是一致的。

但从评论来看,同学们也像美国的小伙伴一样,受了不少委屈:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

这样的情感,还是不分国界的。

参考资料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发的许多NLP论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

大会启幕!预见智能科技新未来

量子位MEET 2020智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会!详情可点击图片:

榜单征集!三大奖项,锁定AI Top玩家

2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!

640?wx_fmt=jpeg
640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 ! 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67189.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GIS(地理信息系统/地理信息科学)职称评审一:怎么评职称?能评什么职称?

GIS(地理信息系统/地理信息科学)职称评审一:怎么评职称?能评什么职称? GIS(地理信息系统/地理信息科学)职称评审二:中科院和人社部职称评审所需材料内容对比 GIS(地理信息…

chatgpt赋能python:Python编程语言一直错误的SEO优化

Python编程语言一直错误的SEO优化 Python是一种强大的编程语言,被广泛应用于数据分析、人工智能、网络开发等领域。但是,在SEO(搜索引擎优化)方面,Python却存在很多错误的做法,导致Python的网站在搜索引擎…

零基础学C语言——变量、常量与数据类型

欢迎大家访问http://melonc.io来学习C语言,可以在浏览器中直接编辑和运行C语言,同时也有ChatGPT辅助解释和诊断,提供还提供了其他文章和C语言项目。 本文在melonc.io中的中文文章中亦可找到(传送门),且会直…

Python 预测 NBA 比赛结果

Python 预测 NBA 比赛结果 一、 内容介绍 不知道你是否在朋友圈被刷屏过 NBA 的某场比赛进度或者结果?或者你就是一个 NBA 狂热粉,比赛中的每个进球、抢断或是逆转压哨球都能让你热血沸腾。除去观赏精彩的比赛过程,我们也同样好奇比赛的结果…

【NLP】让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

夕小瑶科技说 原创作者 | python一个烙饼煎一面一分钟,两个烙饼煎两面几分钟? 让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越…

江瀚新材登陆上交所主板:募资约24亿元,甘书官父子为实际控制人

1月31日,湖北江瀚新材料股份有限公司(下称“江瀚新材”,SH:603281)在上海证券交易所主板上市。本次上市,江瀚新材公开发行股票66,666,667股,发行价格为35.59元/股,发行市盈率为14.80倍。 按发行…

聚威新材在科创板被暂缓审议:毛利率高于同行,张天荣为董事长

2023年1月10日,上海证券交易所披露的信息显示,上海聚威新材料股份有限公司(下称“聚威新材”)被科创板上市委员会暂缓审议。据贝多财经了解,聚威新材仍有多个问题需进一步落实事项。 上市委要求聚威新材落实&#xff1…

坤泰股份在深交所上市:预计全年营收超4亿元,张明夫妇为实控人

2月16日,山东坤泰新材料科技股份有限公司(下称“坤泰股份”,SZ:001260)在深交所主板上市。本次上市,坤泰股份的发行数量为2875万股,发行价为14.27元/股,募资4.10亿元。 据贝多财经了解&#xf…

聚观早报 | 马斯克称星舰1-2个月内准备再发射;推特撤下官媒标签

今日要闻:马斯克称星舰1-2个月内准备再发射;推特撤下「官媒」标签;Pixel Fold 折叠机型首次被泄露;蔚来员工曝半年加班500小时;苹果Mac Pro和Mac Studio无缘WWDC 马斯克称星舰1-2个月内准备再发射 美国当地时间 4 月 …

科大讯飞刘聪:如何持续保持语音识别技术的领先

2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯…

科大讯飞2位董事同日辞职,联合创始人胡郁发力造芯

明敏 发自 凹非寺量子位 报道 | 公众号 QbitAI 科大讯飞高层发生重大人事变动。 昨晚讯飞官方披露:董事、副总裁胡郁和陈涛二人分别递交《辞职报告》,申请辞去相关职务。 同时宣布拟补选副总裁、董事会秘书江涛和副总裁兼CFO段大为任非独立董事候选人。 …

文心一言 VS 讯飞星火 VS chatgpt (60)-- 算法导论6.4 4题

文心一言 VS 讯飞星火 VS chatgpt (60)-- 算法导论6.4 4题 四、证明:在最坏情况下,HEAPSORT 的时间复杂度是Ω (nlgn)。 文心一言: 要证明在最坏情况下,HEAPSORT 的时间复杂度是 Ω(n log n)&#xff0c…

Openpcdet训练自己的数据集

一. Openpcdet的安装以及使用 * Openpcdet详细内容请看以下链接: GitHub - open-mmlab/OpenPCDet: OpenPCDet Toolbox for LiDAR-based 3D Object Detection. 1.首先gitclone原文代码 2. 这里我建议自己按照作者github上的docs/install文件夹下指示一步步安装&a…

无代码资讯|微软将GPT-4集成在Power Apps等产品中;谷歌推出无代码开发平台Gen App Builder;第一新声发布《2022年中国高成长企业级SaaS行业研究报告》

栏目导读:无代码资讯栏目从全球视角出发,带您了解无代码相关最新资讯。 Top3大事件 1、微软将GPT-4集成在Power Apps等产品中,通过自然语言对话就能开发应用 北美时间3月16日,微软召开了“The Future of Work With AI”大会。微…

ShardingSphere 社区出品|LGTM :数据圈内的周度「热点精选」

📢「LGTM」的意思是指:在我看来不错 (Looks Good to Me),这是代码审阅者在批准 CL 时说的常用语。本周,ShardingSphere 社区正式开辟一个全新的内容专栏——「LGTM 专栏」。致力为您带来业界最佳新闻,让您在 5 分钟内了…

2023年网络安全趋势【网安人必看】

数据安全越来越重要。 我国《数据安全法》提出“建立健全数据安全治理体系”,各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。 数据安全治理不仅是一系列技术应用或产品,更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

2023年网络安全发展前景

数据安全越来越重要。 我国《数据安全法》提出“建立健全数据安全治理体系”,各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。 数据安全治理不仅是一系列技术应用或产品,更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

通用智能面临巨大掣肘,国产AIGC还在寻找光明

无论技术有多先进,符合商业规律才能笑到最后。 数科星球 原创 作者丨苑晶 编辑丨十里香 AIGC背后充满了故事,在一家家企业手握巨额融资之时,人们耳边再次响起了警钟。诚然,在新的浪潮之下,符合商业规律的企业才能笑…

擎创动态 | 来自华为的深度认可,擎创再获华为鲲鹏技术认证

在数字中国的信息技术应用国产化进程中,擎创科技除持续投入自主产品研发外,还深度适配了涵盖芯片、服务器、操作系统、数据库、中间件、云服务、应用等领域的国产化产品,与华为的合作适配便是其中重要的一环。近期,擎创夏洛克智能…

Python请求错误“ check_hostname requires server_hostname”?

进行request请求时,有时必须开VPN才能访问,而开着会遇到如下问题: 原因是urllib3升级后增加了 HTTPS的支持,就尝试用https连接代理服务器,但是代理服务器其实只支持 http,因此出现了错误。 简单解决办法&…