【论文阅读】基于整合项目反应理论(IRT)的深度神经网络的解析自动作文评分

摘要

  • 作文考试一直以来作为一种衡量应试者的更高等级的能力的方式吸引大家的注意,但是目前在对他们进行评分评定等级的时候有两个主要的缺陷,一是人力成本昂贵,二是存在公平性的问题。作为一种克服这些困难的方式,自动作文评分(AES)有着持续的需求。
  • 大多数现有的模型被设计为只是预测一个单一的整体分数。但是,在实际应用场景下如果要提供更加细致的反馈,我们不仅需要整体的分数,还需要对应于文章的不用方面的解析分数
  • 卷积模型被设计为对每个解析分数都有着复杂的神经架构,这使得解释分数的预测非常的困难。
  • 为了提升预测的可解释性同时保持打分的准确度,我们提出了一个新的神经模型用于自动的解析评分,它整合了一个多维度的项目反应理论模型(item response theory),它是一个流行的心理测量模型。

引言

  • 近年,社会中的快速改变已经导致了一个对于不仅是知识技能,而且有应用能力(比如表达技巧、逻辑思考和创造力)培养和评估的不断增长的需求。
  • 但是,作文考试有两个相当大的缺陷,就是给作文打分需要的时间和财力。
  • AES系统能够被广泛得分类为两个类别:一种是采用特征工程的方法,一种是采用神经网络的方法。
    特征工程的方法使用带有预定义好的手工特征的统计或者机器学习的模型;
    神经网络方法使用深度神经网络来从文本中自动得抽取特征。
    在这里插入图片描述
  • Mathias等人提出一个很早的神经网络解析AES模型,它采用对每个解析分数应用一个惯例的整体打分模型简单的方法。之后,Hussein等人提出一个多输出的模型,在其中输出层被解析分数的数量进行分支,其他层共享。最近的多输出模型是被Ridley等人提出的,它的输出层对于每个解析分数都有一个复杂的深度神经架构。尽管这个模型产生了SOTA的准确率,它在可解释性上也存在一些问题:
    • 对每个解析分数的复杂的神经架构,降低了预测的可解释性;
    • 总体而言,解析分数被设计出来衡量试题开发者希望评估的受试者的潜在能力。但是,这个模型忽略了一项能力的范围的存在,进一步限制了分数预测的可解释性。
      在这里插入图片描述
  • 为了解决这些问题,我们提出通过整合一个试题反应理论模型(一个有名的心理测量模型)来扩展常规的解析AES模型。具体来说,我们扩展了Ridley的多输出模型,通过将每个解析分数的复杂的输出层,替换为一个多维度的IRT模型。我们提出的模型的优势是:
    • 输出的IRT层只被3中类型的参数解释:对应于每个解析分数的判别力和困难度,以及每个受试者的潜在能力。这使得我们可以更好得解释在分数预测背后的推理。
    • 调查能力维度的一个最优数值在多维度IRT模型层,以及分析评估的参数,使得我们能够解释多解析分数中隐含的分数范围。
  • 实验结果显示模型能够提供合理的可解释的参数,并且没有明显得降低打分的准确度。而且还有一个有趣的发现,尽管基准数据集对每一篇文章包含许多解析分数,只有一个或者两个潜在的能力被这些多种分数所衡量。

常规的解析AES模型

  • baseline 模型是 Ridley等人提出的解析AES模型。模型的架构如下图:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 这个模型对每个解析分数有一个复杂的架构,使得很难对分数的预测进行解释。我们的主要目标是使用IRT来提升分数预测的可解释性。

项目反应理论

  • IRT是一个流行的心理测量模型,广泛用于教育学和心理学的研究中。典型的IRT模型定义了一个受试者收到的在某个测试项目上的分数为,受试者的潜在能力和项目的特征参数(e.g. 判别力和困难度)的一个函数。在多样的现存的IRT模型中,本文采用了一个多维度的普适的部分信用模型(MGPCM,multi-dimensional generalized partial credit model),它是一个有代表性的多维度多点计分IRT模型,能够被应用于序数分数数据,并且能够检验每个受试者的多维度的潜在能力。
  • 如果我们将测试项目的IRT参数视作解析分数项目,MGPCM定义受试者 n n n得到在第 m m m项打分项目上的得到分数 k k k的概率为:
    在这里插入图片描述
  • 这个模型中所有的参数,包括 θ n \theta_n θn, α m \alpha_m αm, β m u \beta_{mu} βmu,都可以从一个可观测的分数集合中评估得出。这些参数都具有很清晰的可解释性,会在下文中进一步阐释。

提出的模型

  • 我们提出了一个整合了M-RPCM的解析AES模型。模型架构如下:
    在这里插入图片描述

模型训练

  • 使用类别交叉熵作为损失函数。
    在这里插入图片描述
    在这里插入图片描述

分数的预测

  • 基于输出的分数的概率 P n m k P_{nmk} Pnmk,有两种预测分数的方式:
    • Argmax分数: a r g m a x k P n m k arg max_k P_{nmk} argmaxkPnmk
    • 期望分数: ∑ k = 1 K m k P n m k {\textstyle \sum_{k=1}^{K_m} kP_{nmk}} k=1KmkPnmk

模型的可解释性

  • 辨别力参数 α m \alpha_m αm:表明解析分数项目能够多好得区分受试者的能力;
  • 困难度参数 β m \beta_m βm:表明受试者觉得达到解析分数项目的某个分数范围的难度;
  • 受试者能力参数 θ n \theta_n θn:代表受试者的能力水平。
  • 进一步得,我们的模型可以使我们在多个解析分数下对能力维度的最优值进行分析,通过比较它的性能和其他不同的维度数量。比如说,如果我们模型的分数预测性能达到最优,在两个能力维度被假设的情况下,之后我们可以解释说,给定的解析分数项目衡量了受试者的两个潜在能力。

实验

数据(Real-word data)

  • 数据来自ASAP和ASAP++数据集。
  • ASAP数据集包含8个不同题目下的受试者的作文。对于题目1到6,只给出了一个整体的分数;但是在题目7和8中,一些解析分数也被给出。ASAP++数据集是对ASAP数据集的补充,给出了题目1到6的解析分数。
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/1bda28ac73b04a4c98139dfe0cd35d6c.pn

模型评估

  • 我们评估了我们模型的打分准确度,并分别设置能力维度数为1,2,3做了实验,比较了我们的结果与之前提到的基准模型的性能。对于每个题目,我们使用5折交叉验证单独验证了模型的打分准确度,评价指标采用的是二次加权Kappa值(QWK)。具体来说,对于每个题目,我们计算了不同打分项目对应的Kappa值,并对其做了平均。

  • 我们检验了两种输入类型:一个是词序列,一个是POS标签序列。在使用词序列的时候,我们使用Glove词向量做嵌入。

  • 并且,我们评估了两种进行分数预测的方式:分别是取最大和取期望。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 下图展示了在题目1中所有的打分项目下,黄金标准分数与模型预测分数(取期望值)的混淆矩阵。
    在这里插入图片描述

模型的可解释性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57925.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JSP基于WEB网上论坛设计与实现(源代码+论文+开题报告+答辩PPT+外文翻译)

cc学院 毕业设计(论文)开题报告 题 目: 基于JSP的学生学籍管理系统 学 科 部: 信工学科部 专 业: 计算机科学与技术 班 级: 学 号: 姓 名: 指导教师: 填表日期&…

【文本生成】必读论文合集推荐 丨剑桥大学等提出全新的 MAGIC 框架,得到明显优于弱监督模型的文本生成质量

文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。国内外已有如Automated Insights、Narrative Science以及“小南”机器人和“小明”机器人等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。 AMin…

百篇论文纵览大型语言模型最新研究进展

© 作者|王晓磊 机构|中国人民大学 方向 | 对话式信息获取 来自 | RUC AI Box 进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群) 本文整理了2022年以来发表在顶级会议上的大语言模型相关论文。 导读 去年底,OpenA…

#论文阅读# MORAN

论文地址:https://arxiv.org/pdf/1901.03003.pdf 代码地址:MORANv2-pytorch版本 1 abstract 不规则文本识别由于有着各种各样的形状,因此仍有较大的困难,本文提出MORAN:包含一个多目标蒸馏网络(multi-obj…

论文阅读_MAE

论文信息 name_en: Masked Autoencoders Are Scalable Vision Learners name_ch: 带遮蔽的自编码器是大规模的视觉学习者 paper_addr: https://ieeexplore.ieee.org/document/9879206/ doi: 10.1109/CVPR52688.2022.01553 date_read: 2023-04-08 date_publish: 2022-06-01 tag…

eval有时候也可以用,而且有奇效

ChatGPT取代程序员还是给程序员加Buff? 这两周,AI新闻一个接着一个,3月23日,Google开放了内测已久的AI对话服务Bard,Google强调,这是一款定位为用户提供创意之源的产品,可生成写作草稿或生活中…

chatgpt赋能python:Python数据散点图:用于数据可视化的强大工具

Python数据散点图:用于数据可视化的强大工具 数据可视化是将数据转化为图表或图形的过程,以使人们更容易理解和解释数据。散点图是一个强大的数据可视化工具,可以使用Python来制作。 什么是散点图 散点图是一种在二维平面上以点的形式展示…

chatgpt赋能python:PythonU盘:如何使用Python为U盘增加更多功能

Python U盘:如何使用Python为U盘增加更多功能 Python已经成为了世界上使用最广泛和最流行的编程语言之一。它具有易于上手,简洁明了的语法,以及强大的库和工具生态系统,使得Python在开发各种不同类型的应用程序和系统时非常受欢迎…

缓存那些事

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&a…

《程序员》3月精彩内容:大数据技术辨析与深度实践

随着技术迭代的不断加速,大数据极大改变了行业领域对信息流动的限制。本期封面报道聚焦领域内热门技术与应用实践,带领大家深度解析大数据技术难点和发展趋势。厉兵秣马今点将,群雄逐鹿正当时——本期精彩不容错过。 探讨数据时代构建高可用…

关于缓存

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&…

旅游推荐系统的演进

作者:郑刚,美团点评高级技术专家。2010年毕业于中科院计算所,2011年加入美团,参与美团早期数据平台搭建,先后负责平台、酒旅数据仓库和数据产品建设,目前在酒旅事业群数据研发中心,重点负责酒店…

逻辑学 导论1

2010 中山大学大一新生的导论课,熊明辉视频46节每节22分钟左右,以前居然没看过,先看前6章 在中国大学MOOC上有 李静 的课程,不太一样 大学生和中学生最主要的区别是什么?就是学习要主动。 第一章 引论 4个问题 逻辑学…

大连工业大学计算机科学与技术在哪个学院,大连工业大学信息科学与工程学院到计算机与软件工程学院交流...

1月11日,大连工业大学信息科学与工程学院副院长于晓强一行到计算机与软件工程学院调研。计算机与软件工程学院院长何明星、副院长杜亚军及学院各系、办公室相关老师参加了此次交流会。双方在6A519进行了两个多小时的热烈研讨与交流。 何明星代表学院向到访的于晓强一…

ChatGPT刷力扣面试题01.01:判定字符是否唯一

Java解法: 方法一:我们可以使用一个HashSet来存储已经遍历过的字符,如果遍历到的字符已经存在于HashSet中,则说明字符串中有重复字符,返回false;否则,将字符加入HashSet中。最后,如果…

ChatGPT 最强助攻书单

GPT 是否有人的智能?昨晚,科学作家万维钢与图灵联合创始人刘江老师在图灵社区直播间进行了一场深入的对话探讨,这是我们系列直播的第二场,围观人数超过30000!没来得及看的小伙伴可以去图灵社区视频号观看回放&#xff…

CiteSpace多数据库一键去重-知网、万方、维普数据库

看完本文你将学会利用CiteSpace、Ucinet、Vosviewer、gephi等文献计量与可视化软件同时处理知网、万方、维普数据库,结果更加客观、科学、权威! ​ 目前,我们利用可视化软件,诸如CiteSpace、Ucinet、Vosviewer、gephi、pajek等处理…

广告投放黑科技Cloak

广告投放黑科技:什么是Cloak,Cloak的原理是什么? 一、Cloak/Cloaking是什么意思? 很多人一定对Cloak/Cloaking这个英文单词产生疑问,或者很多人是第一次听这个词,究竟这个词是什么意思?其实&a…

英文SEO站群操作模式介绍

英文站群,是指一个人批量做了很多站,统一操作一批网站,这个就叫站群。 站群是非常好的英文SEO引流手段,一但英文站群打造完毕,你就能获得持续稳定的流量。 很多人通过英文SEO站群,仅仅是做联盟广告&#xf…

外贸独立站谷歌SEO做外链常见的100个问题总结

外贸独立站谷歌SEO做外链常见的100个问题总结 For the next 21 days,you can explore Freshsales for free.Here are a few steps to get you started Import your data or migrate from another CRM 2-way email sync for a seamless communicationFor the next 21 days,you …