习题难度预测(英语阅读题)-Question Difficulty Prediction for READING Problems in Standard Tests

Question Difficulty Prediction for READING Problems in Standard Tests

一、基本信息

时间:2017年

会议:AAAI(CCF推荐的A类会议 人工智能与模式识别)

作者:黄振亚等(陈恩红团队) 

机构:中国科学技术大学

二、论文五要素

1、论文动机

1.1 背景:

在标准测试(如TOFEL、SAT)中,需要不同难度的试题保证考试的公平。而传统的试题难度评估方法是人工标注和考前组织测试,存在各自的缺点。此外,大量的辅助信息(如学生答题记录、习题文本信息)可用于习题难度预测。

(即作者认为习题的难度和习题的文本信息有关系,因此使用习题的文本对习题难度进行预测。大致的逻辑:测试中需要不同的习题难度——>传统的习题难度评估方法存在缺点——>利用现有的答题记录习题文本可以实现习题难度自动预测)

1.2 目的:

在组织考试前就需要知道试卷中试题的难度,因此需要预测标准测试中英语阅读题的难度(即习题难度预测)

1.3 挑战:

如何建立一个统一的方式来理解和表达文本材料的多个部分(可理解为:为什么用word2vec,为什么使用CNN)

如何区分文本材料对具体问题的重要性(可理解为:为什么选用attention)

如何消除不同测试中的难度偏差(可理解为:为什么要使用test-dependent损失函数)

英语阅读题:包括TD、TQ和TO。TD为阅读文本(document),TQ为题干(question),TO为选项(option)(如下图)

2、传统方法

2.1 评估习题难度的传统方法:

(1)专家对习题难度进行标注

缺点:工作量大、主观性强

(2)组织人员对试题样本进行试测,然后对试题样本进行稍加修改投入使用

缺点:耗时且耗费大量人力物力

共同点:二者皆存在试题泄露风险

2.2 前人研究-习题难度:

(1)影响习题难度可能因素:

     ①question attributes and examinees'  abilities (Beck et al.1997)

     ②question attributes(如question types习题类型,question structures习题结构,knoledge depth深度)

(2)试图利用考生从测试中得到的反馈(即成绩)来进行习题难度的评估,并形成了一些心理学理论(如经典测试理论CTT,认知诊断CDA)

2.3 前人研究-NLP领域的文本理解:

注意:作者提出的模型中的最关键的步骤就是对习题文本的理解和表征

(1)language modeling(Smith et al.2015)(即更注重从习题的语法和语义方面出发进行建模,如句子的结构,词汇语法)

(2)neural network(Hermann et al.2015) (即使用神经网络将习题转化为语义表征)

3、主要方法

针对英语阅读理解题的难度预测提出了一个新的模型TACNN(Test-aware Attention-based Convolutional Neural Network framework )

训练阶段:

  是一种有监督的方法,ground truth是学生答题的通过率,损失函数用在训练阶段用来调整模型的参数,该文提出了一个test-dependent pairwise loss function损失函数

TACNN的输入:习题的文本信息、习题的难度、测试编号、习题编号(如下图)

测试阶段:

  TACNN的输入:习题的文本信息

  TACNN的输出:预测得到的习题难度值

模型框架图:(分为四个部分,如下图所示)

①Input Layer:输入层

②Sentence CNN Layer:句子CNN层(模型重点)

作用:从句子语义角度去学习每个习题的所有文本信息。(即将习题中的句子进行表征)

③Attention Layer:注意力层(模型重点)

作用:通过attention机制衡量每个习题中不同文本信息习题难度的影响

④Prediction Layer:预测层/输出层

4、实验

数据集:

来自科大讯飞收集的数据,具体如下图所示,可以看到数据量很大

对比方法:

CNN:使用attention-ignored机制,损失函数用的test-independent损失函数

ACNN:具有TACNN中的attention机制,损失函数用的test-independent损失函数(用于对比TACNN模型中的tetst-dependent损失函数)

TCNN:使用attention-ignored机制,损失函数用的是test-dependent损失函数(用于对比TACNN模型中的attention机制)

HABCNN:以上三种都是与自己提出的进行对比,这个则是和他人的模型比较(他人的模型作者进行了稍加修改为了适用于习题难度预测问题上)。

实验评价指标:

RMSE(Salakhutdinov and Mnih 2011):均方根误差,越小越好,评价习题难度预测值和真实值的准确度对比(注意:预测值是模型在训练阶段训练好后,将测试集的习题放入训练好的模型后得到的习题难度值;这里的真实值是指测试集中的习题难度值)

DOA(Liu et al.2012):一致性(啥玩意?没懂是干嘛的,需要追溯该论文引用的那篇论文),越大越好,从ranking的角度评价?

PCC(Benesty et al.2009):皮尔逊相关系数 ,越大越好,评价习题难度真实值和预测值的相关性

PR:t-test通过率(啥玩意?不懂是啥,需要追溯该论文引用的那篇论文),越大越好,评价confidence performance

实验结果:

5、创新点

三、论文总结

这篇文章提出的模型的前提:习题文本信息丰富、大量的数据(包括习题和学生的答题记录)

此外,这篇文章中得到的习题难度是absolute difficulty values,即绝对难度(区别于相对难度,即某个学生对于某道题的难度)

挑战:

如何建立一个统一的方式来理解和表达文本材料的多个部分——>使用word2vec对习题文本信息的单词进行表征,使用sentence CNN表达习题文本信息中的句子(包括阅读的文章、题干、选项)

如何区分文本材料信息中哪部分对具体习题难度的重要性——>使用attention机制对习题文本信息的重要部分进行关注

如何消除不同测试中的难度偏差——>提出了test-independent的损失函数

(后面继续补充)

 

最后,发现某个网站上的关于这篇论文的PPT写得挺好的,需要的也可以看看,链接https://myslide.cn/slides/17905

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49017.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【英语】大学英语CET考试,阅读部分1(阅读概述,SectionC仔细阅读140)

文章目录 1、阅读概述1.1 考试概况:大纲解读备考策略1.2 做题原则:定位1.3 标点符号和句子逻辑1.4 一级词汇 2、细节题(10题占9题)2.1 逻辑关系(并列和递进,同一方向)2.2 逻辑关系(转…

英语二 阅读专题

1.话题一:商业经济类 Part 1数字经济带来的挑战&反垄断问题 1.获利 2.打破科技巨头公司垄断Epic -呼吁监管强调科技公司&传统企业竞争FTC congress修订反垄断法保障工人利益角度Big tech大型科技公司 Police v.监督;管制 Monopoly n.垄断 monopolistic a.垄断的 corn…

聚观早报 |阿里清空印度支付宝Paytm股票;Meta终于成功收购Within

今日要闻:全球多所学校禁止学生使用ChatGPT;阿里清空印度支付宝Paytm股票;Meta终于成功收购Within;极氪完成 7.5 亿美元 A 轮融资;现代汽车在美电动汽车销量突破10万 全球多所学校禁止学生使用ChatGPT 2月12日消息&am…

蚂蚁集团入局 AI “百模大战”,定名“贞仪”!

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 由 ChatGPT 强势开局,这场突然爆发的 AI “百模大战”已持续了半年:期间,国外微软、谷歌、Meta 等巨头接连下场,国内百度、阿里、讯飞等大厂也陆续迎战…

测绘的行业标准规范和国家标准全部可下载

工作中我们经常需要参考一些测绘相关标准规范,一些规范在网上真是很难搜到,好不容易废了九牛二虎之力找到了还没看到一半就提示需要付费购买看全文…更别想打印出来随时翻阅了。 每次找规范都是一顿操作猛如虎,一看下载要付2块5。 这些痛苦小…

威妥玛与汉语拼音

威妥玛,Thomas Francis Wade(1818-1895),英国外交官、著名汉学家,曾在中国生活四十余年,因发明用罗马字母标注汉语发音系统---威妥玛注音---而著称,此方法在欧美广为使用&#xff0c…

希腊字母读音表

希腊字母读音表 大写 小写 英文注音 国际音标注音 中文注音 Α α alpha alfa 阿耳法 Β β beta beta 贝塔 Γ γ gamma gamma 伽马 Δ δ deta delta 德耳塔 Ε ε epsilon epsilon 艾普西隆 Ζ ζ zeta zeta 截塔 Η η eta eta 艾塔 Θ θ theta θita 西塔 Ι ι…

All Attention You Need

点击上方“Datawhale”,选择“星标”公众号 第一时间获取价值内容 Attention的产生 起因: 《Sequence to Sequence Learning with Neural Networks》 Attention模型的引入原因: seq2seq将输入序列都压缩成一个固定大小的隐变量,就…

大话数据结构系列之数学基础知识补充

文章目录 数学归纳法实际以多米诺效应推导求证等差数列结论是否正确: 二分法的对数推导时间复杂度常规比较快速查询的时间复杂度推导对数对数的由来对数的定义log2^n > lgn 推导 相关的数学公式了解 数学归纳法 数学归纳法是以一种不同的方式来证明任意一个给定…

计算机的计算单位

1 容量单位(存储单位) 存储单位一般用 bit, Byte, KB, MB, GB, TB, PB, EB, ZB, BB来表示。一般将Byte简称为B,将KB简称问K。 换算关系 1B(Byte 字节)8bit, 1KB (Kilobyte 千字节)1024B, 1MB (Megabyte 兆字节 简称…

中考不能用计算机ka,中考阅卷老师提醒:今年90%的考生,都错在这68个汉字上!...

都说“温故而知新”,假期正是“温故”的好时节。 最近,一位阅卷老师总结了今年中考试卷中,语文的基础知识积累部分出错率最高的68个汉字,快来试试你能否读对吧! d 谛 释义:意义。 组词:真谛&…

unravel中文音译

吼 西 嘿 得 哦,西 嘿 得 哟 搜 no,洗 库 咪 喔 博 库 no 那 噶 泥,大 累 盖 一 路 弄 抠 哇 泪 大 狗 哇 泪 大 哟 抠 no 塞 盖 一 得 key 咪 库 哇 那 唔 那 咪 唔 咩 子 咩 抠 哇 泪 大 博 库 哇 得 撒 一 key 喔 都 没 带 吼 都 key 耐 某…

lollipop中文_2NE1的Lollipop中文歌词和中文译音?

展开全部 Pre-Hook) Lolli Lolli Lollipop Oh 넌 나의 Lollipop Lolli Lolli Lollipop oh 你是我的Lollipop Lolli Lolli Lollipop Oh Lolli-Pop-Pop Lolli Lolli Lollipop Oh Lolli-Pop-Pop Lolli Lolli Lollipop Boy 넌 나의 Lollipop Lolli lolli lollipop boy 你是我的loll…

通达信指标源码,一键自动改写成选股器

#1.软件的功能:可以将通达信指标源码,一键自动化改写成选股指标,预警指标,可以省去了大量的手动人工操作,当你选股表达式写好了,就直接可以用程序代码去帮你操作,得到同样的结果。只需30秒不到就…

Python结合通达信选股策略进行股票量化

前言: 1、目前我的选股策略有超过5个以上,都把它们设置在通达信预警系统里,在界面上我会使用订制版面来同时观察预警结果,不过电脑里开了2个通达信软件之后,想进一步进行汇总策略效果进行打分,目前每个策略的权重都是相等的,按照策略预警的次数统计分数,得分最高的股票…

Python版A股选股软件源代码,选股系统源代码,实现多种选股策略

本程序使用传统的[TuShare接口],并非需要捐赠的[pro接口]获取数据无限制; 另,由于TuShare的增量更新接口有bug(最近一个交易日的数据获取不到),所以每次计算前都是删除所有数据,全部重新获取。 本程序实现…

ChatGPT不是唯一的选择:这个小工具也是个不错的选择

技术迭代日新月异,人工智能技术的应用越来越广泛,许多AI小帮手网站也应运而生。这些网站利用人工智能技术,为用户提供了很多便利,帮助用户更快、更准确地完成各种任务。 与 ChatGPT 不同,这些 AI 小帮手网站可以帮助用…

微软小冰的服务器,和微软小冰这么玩,感觉可以玩一下午

原标题:和微软小冰这么玩,感觉可以玩一下午 从最开始的小娜cortana,到中国化得小冰,微软在人工智能领域不断前行。微软小冰也会在每周解锁新技能,或者是读心术、或者是进化的测颜值技能等等。总之,微软小冰自发布之日(…

打造 AI Beings,和微信合作…第七代微软小冰的成长之路

8月15日, “第七代微软小冰”年度发布会在北京举行。本次发布会上,微软(亚洲)互联网工程院带来了微软小冰在 Dual AI 领域的新进展,全新升级的部分核心技术,最新的人工智能创造成果,以及更多的合作与产品落地。其中&am…