【论文阅读】提升的自动作文评分通过Prompt预测和匹配

摘要

  • 自动作文评分的目标时自动得评估文章的质量。它是自然语言处理领域中主要的教育应用之一。近来,预训练的技术被用于提升下游任务的性能表现。
  • 但是,通过预训练的编码器获取更好的特征,比如说prompts,是很重要的但是并没有被完完全全的研究。
  • 在这篇论文中,我们创造了一个prompt特征融合方法,这个方法更适合于微调。并且,我们通过设计两个辅助的任务(prompt预测和prompt匹配),使用多任务学习来获得更好的特征。
  • 实验结果显示两个辅助任务都可以提升模型性能,并且结合两个辅助任务和NEZHA预训练编码器的结果最好,QWK提升了2.5%并且皮尔逊相关系数平均提升了2%,对于所有在HSK数据集上的结果而言。

方法

动机

  • 尽管之前在标注好的作文评分模型上进行特定prompts的研究已经有比较好的结果,大多数研究都关注于文章的普通特征。只有一些研究关注prompt特征的提取,并且没有人曾尝试使用多任务的方法老使得模型捕捉到prompt特征,并且自动的对prompts敏感。
  • 整体架构图:
    在这里插入图片描述

输入和特征提取层

  • 一篇文章的输入表示是加入对应的词嵌入 E t o k e n E_{token} Etoken,段嵌入(segment) E s e g m e n t E_{segment} Esegment和位置嵌入 E p o s i t i o n E_{position} Eposition。为了完全开发prompt的信息,我们把prompt连接在文章的前面。
  • 每个输入的第一个token是特殊的分类token [ C L S ] [CLS] [CLS],并且prompt和文章被 [ ] S E P []SEP []SEP分隔开。在第 i i i个prompt的第 j j j篇文章的token嵌入是:
    E t o k e n ( i ) ( j ) = { E p r o m p t ( i ) , E e s s a y ( i ) ( j ) } E_{token}^{(i)(j)}=\left\{E_{prompt}^{(i)},E_{essay}^{(i)(j)}\right\} Etoken(i)(j)={Eprompt(i),Eessay(i)(j)}
  • E s e g m e n t E_{segment} Esegment E p o s i t i o n E_{position} Eposition被从预训练编码器的标注器中获取。
  • 我们使用BERT和NEZHA作为特征提取层。最终的隐藏层对应于 [ C L S ] [CLS] [CLS]token,也就是文章的表示 r e r_e re,这个文章的表示会被用于文章评分和子任务。

文章评分层

  • 我们将文章评分看作一个回归任务。为了使得数据映射到回归任务,真实的分数被变换范围到区间 [ 0 , 1 ] [0,1] [0,1]来训练,然后重新变换为之前的区间范围在验证的时候。变换的方式:
    s ( i ) ( j ) = s c o r e ( i ) ( j ) − m i n ( s c o r e ( i ) ) m a x ( s c o r e ( i ) ) − m i n ( s c o r e ( i ) ) s^{(i)(j)}=\frac{score^{(i)(j)}-min(score^{(i)})}{max(score^{(i)})-min(score^{(i)})} s(i)(j)=max(score(i))min(score(i))score(i)(j)min(score(i))
    在该公式中, s ( i ) ( j ) s^{(i)(j)} s(i)(j)是规约后的第i个prompt和第j篇文章。
  • 来自预训练编码层的文章的表示 r c r_c rc,被馈入一个线性层,采用sigmoid激活函数:
    s ^ = σ ( W e s ⋅ r e + b e s ) \hat{s}=\sigma(W_{es}\cdot{r_e}+b_{es} ) s^=σ(Wesre+bes)
    在该公式中, s ^ \hat{s} s^是AES系统的预测分数, σ \sigma σ是激活函数。
  • 作文评分系统的训练目标是
    l o s s e s ( s , s ^ ) = 1 N ∑ k = 1 N ( s k − s k ^ ) 2 loss_{es}(s,\hat{s})=\frac{1}{N}\sum_{k=1}^{N}(s^k-\hat{s^k})^2 losses(s,s^)=N1k=1N(sksk^)2

子任务1:Prompt预测

  • prompt预测的定义是:给定一篇文章,决定它属于哪个prompt。
  • 我们将prompt预测视为一个分类任务。输入是文章的表示 r e r_e re,它被馈入一个线性层,采用softmax函数。公式是:
    u ^ = s o f t m a x ( W p p ⋅ r e + b p p ) \hat{u}=softmax(W_{pp} \cdot r_e+b_{pp}) u^=softmax(Wppre+bpp)
    在该公式中, u ^ \hat{u} u^是分类结果的概率分布, W p p W_{pp} Wpp是参数矩阵。
  • 损失函数是:
    l o s s p p ( u , u ^ ) = − 1 N ∑ k = 1 N ∑ c = 1 C f ( u ( k ) , c ) l o g ( p p p ( k ) ( c ) ) loss_{pp}(u,\hat{u})=-\frac{1}{N}\sum_{k=1}^{N}\sum_{c=1}^{C}f(u^{(k)},c)log(p_{pp}^{(k)(c)}) losspp(u,u^)=N1k=1Nc=1Cf(u(k),c)log(ppp(k)(c))
    f ( x , y ) = { 1 , i f x = y 0 , e l s e x ≠ y f(x,y)= \begin{cases} 1,&if&x=y\\ 0,&else&x\neq y \end{cases} f(x,y)={1,0,ifelsex=yx=y
    在该公式中, u ( k ) u^{(k)} u(k)是第k个样本的真实的prompt标签, p p p ( k ) ( c ) p_{pp}^{(k)(c)} ppp(k)(c)是第k个样本属于类别 c c c的概率。

子任务2:Prompt匹配

  • prompt匹配的定义是给出一个prompt和一篇文章,判断这篇文章和这个prompt是否兼容。我们将prompt匹配问题看作是一个分类任务。
    v ^ = s o f t m a x ( W p m ⋅ r e + b p m ) \hat{v}=softmax(W_{pm} \cdot r_e+b_{pm}) v^=softmax(Wpmre+bpm)
  • 目标函数是:
    l o s s p m ( v , v ^ ) = − 1 N ∑ k = 1 N ∑ m = 0 M f ( v ( k ) , c ) l o g ( p p m ( k ) ( m ) ) loss_{pm}(v,\hat{v}) = -\frac{1}{N}\sum_{k = 1}^{N}\sum_{m = 0}^{M}f(v^{(k)},c)log(p_{pm}^{(k)(m)}) losspm(v,v^)=N1k=1Nm=0Mf(v(k),c)log(ppm(k)(m))
    v ( k ) v^{(k)} v(k)表明了输入的prompt和文章是否匹配。 m m m指明了匹配的程度,0表示匹配,1表示不匹配。

多任务的损失函数

  • 最终对每个输入的损失函数是文章评分和两个子任务的加权和:
    l o s s M T L = α ⋅ l o s s e s + β ⋅ l o s s p p + γ ⋅ l o s s p m loss_{MTL}=\alpha \cdot loss_{es}+\beta \cdot loss_{pp} + \gamma \cdot loss_{pm} lossMTL=αlosses+βlosspp+γlosspm

实验

数据集

  • HSK:汉语水平考试。动态作文语料库(http://hsk.blcu.edu.cn/),该数据集包括11569篇文章,由超过30个不同的 国家地区的外国人对超过50个不同的prompts的反应。经过处理,最终的统计如下表,10个提示之下的总计8878篇文章,每篇文章的分数在40到95分之间。
  • 分割比(训练集:验证集:测试集)=6:2:2,在测试阶段不仅在整个测试集上进行测试,也在分别在每个提示下进行测试。最后,报告平均的性能表现。
    在这里插入图片描述

评估指标

  • 对于主任务,我们使用QWK,来分析预测分数于真实之间的同意度。
    W i , j = ( i − j ) 2 ( N − 1 ) 2 W_{i,j}=\frac{(i-j)^2}{(N-1)^2} Wi,j=(N1)2(ij)2
    i i i j j j是人评估的黄金分数和AES系统分数,并且每篇文章由 N N N个可能的等级。
    Q W K = 1 − W i , j O i , j W i , j Z i , j QWK=1-\frac{W_{i,j}O_{i,j}}{W_{i,j}Z_{i,j}} QWK=1Wi,jZi,jWi,jOi,j
    在该公式中, O i , j O_{i,j} Oi,j表明人类评估等级为 i i i,并且AES系统评估等级为 j j j的文章个数。
  • 我们也使用了皮尔逊相关系数(PCC)来衡量关联,即使用PCC来评估AES系统排序的文章与黄金标准的相似度。
  • 对于辅助任务,是分类,采用F1和Acc作为评价指标。

结果及讨论

主要结果和分析

  • 下表展示了QWK和PCC在整个测试集上和每个prompt测试集上的平均结果。
    在这里插入图片描述
  • 用BERT和NEZHA的每个prompt的结果如下图:
    在这里插入图片描述
  • 下表展示了辅助任务在验证集上的结果:使用NEZHA作为特征提取模块的辅助任务的结果更好。
    在这里插入图片描述
  • 比较PP和PM的贡献,PM的贡献更高,更有效。
    在这里插入图片描述

损失权重的影响

  • 检验损失权重参数 α \alpha α,$ β \beta β γ \gamma γ怎样影响模型。
    在这里插入图片描述

知识点扫盲:

  • 基于预训练语言模型的研究思路通常是“pre-train,fine-tune”,融入了Prompt的新模式大致可以归纳成“pre-train,prompt,and predict”,在该模式中,下游任务被重新调整成类似预训练任务的形式。
  • Prompt刚刚出现的时候,还没有被叫做Prompt,是研究者为了下游任务设计出来的一种输入形式或模板,它能够帮助PLM“回忆”起自己在预训练时“学习到”的东西。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49142.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析师是青春饭吗?年龄影响很大吗?

数据分析师是青春饭吗?企业需要经验丰富的数据分析师,数据分析师是不是青春饭,反而是越老越吃香,做数据分析不在于年龄,年龄相对你的经验和技能、适应性、还有学习能力并不重要,数据分析工作并不是一蹴而就…

下一个韦神?广西桂林14岁初中生保送清华丘班,明年本硕博连读!

【导读】最近,初三学生官子钦和高一学生周睿哲被清华丘成桐数学领军计划录取,网友们围观后深深震撼:这就是天才。 14岁天才少年又一次震撼了网友! 近日,清华大学丘成桐领军人才培养计划2023年第一批次入围认定结果公…

如何通过tushare获取数据并添加进度条,写入到本地Excel文件

tushare官网地址:Tushare数据 欢迎大家注册体验 安装tushare库 在命令提示符或终端中输入以下命令,可使用pip安装tushare库: pip install tushare 获取API token 在使用tushare库之前,需要先获取API token。在tushare官网注册…

U8如何修改单位名称和账套名称

1、修改单位名称和账套名称时需要使用系统管理员账号登录,系统管理员账号为1 2、登录之后点击系统管理-单位信息 3、找到需要修改的单位,双击即可修改 4、在弹出的弹窗中修改单位名称然后点击确定即可 5、账套名称的修改需点击系统管理-单位账套 6、…

悟空crm二次开发 新增人力资源HRM招聘需求、简历管理、公文管理、回款统计、回款管理、回款计划

悟空crm二次开发 新增人力资源HRM招聘需求、简历管理、公文管理、回款统计、回款管理、回款计划 public function createTeamData($param) {if (!is_array($param[user_id])) {$param[user_id] [intval($param[user_id])];}if (!is_array($param[types_id])) {$param[types_id…

【U8+】用友U8+自动审核自动生成的其他出入库单据

【问题需求】 用友U8中,客户希望调拨单、组装拆卸单、盘点单审核后,自动审核对应的其他出入库单。 【解决方法】 针对账套库执行,查询语句: select * from AccInformation where cSysID ST and ccaption like %自动审核%查询后…

SAP_过账提示科目要求一个成本会计分配

问题点: 解决方案: 在ECC系统,可通过KA02-更改成本要素,在缺省科目分配中设置默认的成本中心或内部订单 后台-控制-成本要素会计-主数据-成本要素-创建成本要素 在S4/HANA系统中,由于成本要素会计功能的变更&#xf…

【分享】用友U8无需API开发连接表单系统、CRM系统、数据库等第三方应用

用友U8用户使用场景: 每当用友U8有存货修改时,需要仓库管理员查询存货档案详情,然后在钉钉宜搭上查询对应货品详情并进行修改,确保两个系统的信息统一,便于销售人员调整营销策略。 但整个流程耗费一定的时间&#xff0…

总账科目 前台操作关事务代码及操作要点

目录 1、维护会计科目相关代码及要点 2、公司代码中的科目参数详解 1、维护会计科目相关代码及要点 事务代码:FSP0 在科目表中维护科目 操作例子:创建1001010100 现金-人民币 及40010001实收资本. 点保存后成功展示如下图 注意,后台必须的…

安卓--记账软件课程设计

安卓课程设计 记账软件课程设计 目录 1 引言............................................................................................................................................................. 2 1.1 背景............................................…

用友U8二次开发之登录

首先引用U8的登录DLL: 然后是调用U8的登录UI: UFSoft.U8.Framework.Login.UI.clsLogin U_Login new UFSoft.U8.Framework.Login.UI.clsLogin();U_Login.login("DP")其中DP是门户子系统的代码,如果不调用U8的业务系统功能&#xff…

基于android的记账APP大作业项目

基于android的记账APP 一 项目介绍 由于日常生活中,有很多月光一族的人们,他们往往不知不觉,觉得钱用的差不多了。而且最后回想起来,还不知道钱用到哪些地方了。所以开发此软件的目的,就是为了解决这样的问题,从软件…

【安卓开发】简单记账app功能实现开发-期末大作业个人总结

说在前面: 由于这一次的大作业涉及到的代码部分过于长,所以博客里不放相关代码; 工程&apk&记账app原型&素材资源链接:https://download.csdn.net/download/white2333/11234105 配套文档目录预览&资源链接&…

管家婆软件创建账套提示:创建账套失败

我们在安装完管家婆软件后,在创建账套的时,可能会碰到这个错误:创建账套失败!这个报错要怎么去解决呢? 问题原因1:这个提示一般是管家婆软件安装目录比较深,就比如A文件夹里面有个A1的文件夹&am…

【T+】将查询账套更换成可以业务操作的正式版账套

【问题描述】 在使用畅捷通T软件过程中, 由于某些原因,将已使用的账套设置成【查询版】,并且根据软件提示,设置后该账套只能查询使用,不可以进行业务操作。 并且【查询】账套不支持反操作。 设置成查询版后&#xff0c…

SAP中使用LSMW批量导入总账科目

遗留数据迁移平台,可以导入主数据:科目、资产主数据、物料主数据、供应商、客户主数据、成本中心、内部订单数据。。。。 FSP0 FSS0 分层导入:适合集团和分公司分别维护科目主数据,集团和公司自行维护科目主数据 FS00集中导入&a…

SAP系统 会计科目主数据详解

会计科目(主数据)概述: 每个公司代码均指定一个总帐的科目表。此科目表在配置中分配到公司代码,作为其运营科目表 每个总帐都是根据科目表建立的。所有总帐科目的定义均以有序形式包含在科目表内。定义主要由科目编号、科目名称…

工资管理系统(附源码,直接复制就可以跑起来)

分享一个Java Application的工资系统。 运行界面如下: 其他分类专栏也有一些其他的Java Web系统 点击分类专栏介绍查看 直接创建如下的5个Java类文件。 1.项目工程 2.CommonEmployee类 package study;import java.util.*;public class TestEMD {/*** len代表数组的…

如何快速为子公司创建SAP财务账套的操作步骤

相对来说在SAP上配置一家子公司比从0开始创建创建一家公司可以节省很多步骤,因为子公司的很多配置(如科目表,科目,折旧表,折旧代码等)可以沿用母公司的。本文就简单介绍一下创建子公司财务账套的配置步骤.只…

【U8+】用友U8+对账不平案例及方法总结

【问题需求】 在使用用友U8软件过程中,由于软件涉及到多方面的对账。 所以经常会遇到期初或结账时对账不平。 【经验分享】 在众多对账中, 只有当【总账上下级】(即:总账与明细账对账)不平的时候, 软件才…