RiceChem——用于评估大语言模型在教育领域自动长答卷评分 (ALAG) 的数据集

摘要

论文地址:https://arxiv.org/abs/2404.14316
源码地址:https://github.com/luffycodes/automated-long-answer-grading
迄今为止,教育领域的自然语言处理(NLP)主要集中在简答题评分和自由文本作文评分方面。然而,本文从一个新的角度出发,研究了自动长答卷评分(ALAG)这一相对尚未开发的领域。

对自由文本文章的评估是根据其连贯性和原创性等特点,而长文本作答则是事实性的,需要更复杂的评分方法。传统的自动简答评分法(ASAG)将作答分为五类:正确、部分正确、不一致、不相关和超出领域,但长篇作答可能同时表现出多个类别的特征,因此五类不足以对长篇作答进行评分。

因此,为了进一步推动 ALAG 的研究,本文创建了自己的数据集 RiceChem,该数据集收集了大学化学课程中的 1,264 个长回答;RiceChem 基于 27 个评分标准项目,每个回答都有评分,总共有 8,392 个数据集。总共有 8,392 个数据集。该数据集的平均字数为 120,远高于现有数据集(SciEntsBank:13;Beetle:10;Texas 2011:18),因此适合用于 ALAG 研究�

考虑到传统 ASAG 方法的局限性,ALAG 已被重新定义为一项包含评分标准的任务。在这种新方法中,每个评分标准项目都是学生作答必须符合的标准。自然语言推理模型用于确定每个评分标准是否包含在答卷中,从而实现更精细、更全面的评分。

为了利用 RiceChem 数据集为 ALAG 任务设定基线,对 BERT、RoBERTa 和 BART 等编码器模型进行了微调。因此,使用基于评分标准的方法显然会增加 ALAG 的复杂性:与传统的基于分数的方法相比,ALAG 中基于评分标准的格式能更准确地捕捉学生回答的细微差别和多面性。

它还检查了模型在冷启动情况下的性能,为数据效率和在教育环境中的实际部署提供了宝贵的见解�

此外,还在 RiceChem 中对最先进的开源大规模语言模型进行了基准测试,并将这些结果与 GPT 模型进行了比较。这揭示了 ALAG 与 ASAG 相比有多么复杂。即使使用基于评分标准的方法,大型语言模型在 RiceChem 上的表现也比 ASAG 的 SciEntsBank 差,这表明 ALAG 任务非常困难。

本研究是在教育 NLP 领域解决自动长表分级(ALAG)问题的首次尝试之一�

数据集和方法

本节首先介绍原始 RiceChem 数据集,然后定义 ALAG 任务问题。下图是本文提出的利用 RiceChem 数据集进行自动长表分级(ALAG)的示意图。

在这里插入图片描述

该图强调了将 ALAG 表述为评分标准包含问题的一种新方法。每个学生的回答(假设)都与相应的评分标准项目(假设)配对,这些配对由经过微调的 ALAG 转换器模型处理。该模型可预测一个回答是否意味着一个评分标准项目;在 RiceChem 中使用评分标准可进行详细的逐点评估,并通过设计使评分过程具有可解释性。

如上所述,RiceChem 数据集的开发是为了验证 ALAG 任务。该数据集不仅是 ALAG 研究人员的宝贵资源,还有助于开发更可靠、更可解释的评分系统,使用评分标准为学生提供有意义的反馈。

RiceChem 包含从大学化学课程中收集的 4 道试题、27 个评分标准项目和 1264 份评分的学生答卷。多名助教用 "真 "或 "假 "标签对学生对各个评分项目的回答进行评分。共有 4880 个 "真 "标签和 3512 个 "假 "标签。每个评分标准项目都有一个特定的分数,最终分数由正确回答评分标准项目的分数总和决定�

给定一个推理模型 M : (P, H) → L,它将前提 P 和假设 H 作为输入,并预测一个标签 L∈{True, False},表示 P 是否暗示 H。要将评分表表述为推理问题,可将学生的回答 R 和评分标准项目 I 分别视为前提和假设。换句话说,(R,I)被输入模型 M 以预测标签 L�

本文提出的 ALAG 方法通过学习语言模型,从学生的回答中预测评分标准项目的含义,实现了这一表述。预测可以有效地识别学生回答中被正确处理的评分标准项目,并提供自动反馈。

实验和结果

它还强调了在 ALAG 中基于蕴涵和基于评分标准的表述的重要性,并证明了它们优于传统的基于分数的方法。我们还研究了这些模型在标记数据有限的情况下(冷启动)的性能,并讨论了在教育环境中实际部署的意义。最后,我们评估了 RiceChem 中最先进的开源大规模语言模型 (LLM) 的性能,并将结果与 GPT 模型进行了比较,以显示 ALAG 比 ASAG 更复杂。

首先,介绍使用 RiceChem 数据集的转换器语言模型的训练过程,以及整个实验中使用的评估指标:为了在 RiceChem 数据集上微调转换器模型,数据被分成 80-10-10 个训练-验证-测试,经过预处理后,再将数据分成 80-10-10 个学习-验证-测试,经过预处理后,再将数据分成 80-10-10 个学习-验证-测试,经过预处理后,再将数据分成 80-10-10 个学习-验证-测试。数据被分成 80-10-10 个学习-验证-测试,并进行预处理。对于每个问题,随机抽取 80% 的学生回答用于训练,10% 用于验证,10% 用于测试,以确保这些回答不会重叠。

实验使用 "拥抱脸 "变压器库进行。学习过程使用 NVIDIA A100-PCIE-40GB GPU。在学习过程中,使用了 AdamW 优化器,初始学习率设置为 2e-5。每次更新的迷你批次大小为 16,模型最多训练 10 次。超参数 α 和 β 分别设为 0.9 和 0.999。训练结束后,在验证数据中获得最高 F1 分数的模型被选为最佳模型进行评估。实验采用了一套全面的评估指标作为基准,包括准确度、拟合度、再现性和 F1 分数。为确保稳健性,报告了使用五种不同种子的五次运行的平均值和标准偏差。

在 RiceChem 数据集上评估了现代判别语言模型(如 BERT、RoBERTa 和 BART)的性能。下表比较了基本模型和大规模模型的结果。其中,大规模模型的结果优于基础模型,证明了使用更先进模型的优势。然而,由于微调的不稳定性,BERT 模型也存在一些例外情况。

在这里插入图片描述

下表还比较了语言模型在 RiceChem 数据集上的性能及其 MNLI 精细版本。结果表明,在 MNLI(多类型自然语言蕴涵语料库)数据集上微调的模型在准确率和 F1 分数上都有显著提高,突出了将 ALAG 表述为蕴涵问题的价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将 ALAG 正式化为蕴涵任务,可以使用包含前提假设对的 MNLI 数据集,这些前提假设对涵盖了广泛的主题和语言类型;MNLI 数据集拥有 400 万个示例,提供了丰富的语言知识和推理能力,可以有效地转移到 ALAG 任务中。MNLI 数据集有以下格式。

蕴涵表述法允许使用在 MNLI 数据集上预先训练过的模型,并通过对模型进行微调,充分了解假设和假说之间的蕴涵关系,从而有效地适应长表评分这一特定领域。

下表(转载)显示的性能改进证实了这种迁移学习方法的有效性:在使用 MNLI进行微调后,RoBERTa 模型的准确率提高了 3.2%,F1 分数提高了 2.8%。同样,BART 模型的准确率提高了 1.8%,F1 分数提高了 1.4%。这些改进表明,MNLI 数据集的知识成功转移到了 ALAG 任务中,而这是通过隐含表述实现的。

在这里插入图片描述

蕴涵式表述不仅可以使用 MNLI 等大型数据集,还为 ALAG 提供了一种更自然、更可解释的方法。将评分过程与确定学生答卷与评分标准项目之间的隐含关系的任务结合起来,可以创建一个更直观、更易于解释的框架。

事实证明,使用评分标准进行自动评分也能提高自动简答评分(ASAG)和自动作文评分(AEG)的成绩。本实验也证实了这一方法同样适用于自动长答案评分 (ALAG)。与传统的基于分数的方法相比,基于评分标准的方法平均准确率提高了 9.2%,F1 分数提高了 15.4%。
在这里插入图片描述

与之前对 ASAG 和 AEG 的研究类似,我们的实验证实了基于评分标准的形式在 ALAG 中的重要性。然而,长文本的复杂性和多面性使得基于评分标准的形式在 ALAG 中的重要性更加突出。

为了说明这一点,我们将传统的基于分数的方法与基于评分标准的 ALAG 方法进行了比较。在基于分数的方法中,RiceChem 数据集经过预处理,数据结构分为句子(学生回答)和标签(分数),语言模型预测 0 到 8 的整数分数。另一方面,基于评分标准的 ALAG 格式将评分过程分解成更小、更易于管理的部分,使模型能够专注于评分标准项目所定义的回答的特定方面。

下图(复制如下)显示,与传统的计分方法相比,基于评分标准的方法提高了 9.2% 的准确率和 15.4% 的 F1 分数。成绩的大幅提高突出表明了在 ALAG 中使用评分标准的重要性。通过将长篇回答的复杂评分任务分解为更小、定义明确的评分标准项目,该模型可以更有效地捕捉学生回答的细微差别和多面性。
在这里插入图片描述

制作高质量的评分标准具有挑战性,需要深思熟虑并付出努力。不过,这种努力只需一次,就能在后续的自动评分流程中反复受益。评分标准为评估答卷的关键方面提供了一个全面的框架,使评分结果更加准确可靠。在 ALAG 中使用评分标准不仅能提高模型的性能,还能增加评分过程的可解释性和透明度。通过将模型的预测与具体的评分标准项目相匹配,教育工作者和学生可以更清楚地了解作答的优缺点,从而促进有针对性的反馈和改进。

此外,在教育环境中,处理训练数据有限的新课程、科目和问题类型也很常见。因此,必须评估自动评分模型在冷启动环境下的表现,并了解其表现如何随着训练数据的增加而变化。本节的分析为了解模型的数据效率提供了有价值的见解,并有助于确定为获得令人满意的评分结果所需的最小标注数据量。

首先,评估了 RoBERTa-Large-MNLI 模型在未见过的问题上的性能,在一些问题上对模型进行了调整,并模拟了在没有事先训练数据的情况下对新问题答案进行评分的情景。在这项研究中,模型在数据集中的三个问题上进行了训练,其余未见问题则用于测试。

下表显示,该模型具有一定的通用性,对不同问题的准确率为 60.6% 至 68.7%,F1 分数为 0.629 至 0.717。这表明,针对类似问题类型进行微调的模型已经获得了一些可迁移的知识,可以处理未见过的问题,这对于缺乏新问题标注数据的教育环境是非常有价值的。

在这里插入图片描述

然后,随着训练数据量从 5% 增加到 80%,研究了 RoBERTa-Large 模型及其 MNLI 微调版本的性能。下图显示了两个模型的准确率和 F1 分数的变化趋势。不出所料,随着训练数据量的增加,性能也在不断提高:RoBERTa-Large 的准确率从 73.2% 提高到 84.1%,F1 分数从 0.772 提高到 0.864。同样,微调版 MNLI 的准确率从 79.2% 提高到 86.8%,F1 分数从 0.823 提高到 0.888。

在这里插入图片描述

RoBERTa-Large和RoBERTa-Large-MNLI的性能提升分别在训练数据量达到40%和20%之后有所下降。这一观察结果表明,即使标注的数据量相对较小,模型也能获得有竞争力的得分结果,超过一定程度后,额外数据的优势会变得不那么明显。此外,不同种子的准确率和 F1 分数的标准偏差都在 1.12% 以内,这表明了模型性能的可靠性和一致性。

此外,我们正在评估几个大型语言模型在 RiceChem 数据集上的零点性能,以评估这些模型在 ALAG(自动长文本分级)中的潜力。

在这里插入图片描述

尽管这些大规模语言模型在许多领域都有很高的表现,但事实证明 RiceChem 数据集是一个非常难对付的数据集。表现最好的模型 GPT-4 的准确率为 70.9%,F1 得分为 0.689,突出了 ALAG 任务的复杂性。与 GPT 模型在 ASAG 任务中的结果相比,这一结果尤为突出。

ASAG 和 ALAG 在复杂性上的差异可能比 F1 分数相差 5 分还要大:RiceChem 中使用的评分标准提供了一个结构化框架,提高了模型性能,但 GPT-4 仍然是没有评分标准的 ASAG在任务中的表现难以匹配。

下表中的结果(转载于下)也揭示了各种大规模语言模型在 RiceChem 数据集上的不同表现:虽然 GPT-4 和 GPT-3.5 表现最佳,但其他模型,如 Qwen1.5 32B Chat 和 Mistral 也表现出了可喜的结果,F1 分数分别为 0.456 和 0.429。F1 分数分别为 0.456 和 0.429。这些研究结果表明,大规模语言模型的架构和训练方法对其应对 ALAG 复杂性的能力有重大影响。

在这里插入图片描述

总之,在 RiceChem 数据集上对大规模语言模型进行基准测试凸显了 ALAG 任务所带来的独特挑战。即使有了评分标准的好处,ASAG 和 ALAG 任务之间的性能差距也凸显了进一步研究和开发专门用于评估基于事实的长篇回答的模型和技术的必要性。随着大规模语言模型的不断发展,探索其在 ALAG 中的潜力并制定策略以改进教育环境中的自动评分系统非常重要。

总结

本文介绍了一项新任务–自动长答案评分(ALAG),并提出了一个专为推进该领域研究而设计的 RiceChem 数据集:基于评分标准的 ALAG 表述为评估长答案提供了一种精心设计且适合教学的方法,与传统的自动简答评分(ASAG)方法相比,ALAG 的评估更为全面。与传统的自动简答评分(ASAG)方法相比,ALAG 提供了一种精细的、适合教学的评估长答案的方法,以及更全面的评估。

通过广泛的实验,它证明了基于评分标准的表述的重要性、隐式表述的价值以及冷启动情景所带来的挑战。此外,对最先进模型(包括大规模语言模型)的基准测试证实,与 ASAG 相比,ALAG 的挑战要大得多。

我们希望这项研究能促进教育 NLP 这一重要领域的进一步研究,并有助于开发先进的模型,以应对 ALAG 任务的复杂性和精密性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478828.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚

我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 前言:在 Java编程的广袤世界里,数据结构犹如精巧的建筑蓝图,决定着程序在数据处理与存储时的效率、灵活性以…

【04】Selenium+Python 手动添加Cookie免登录(实例)

一、什么是Cookie? Cookie 是一种由服务器创建并保存在用户浏览器中的小型数据文件。它用于存储用户的相关信息,以便在后续访问同一网站时可以快速检索这些信息。Cookie 主要用于以下几个方面: 1.状态管理: Cookie 可以保存用户…

GitLab|应用部署

创建docker-compose.yaml文件 输入docker-compose配置 version: 3.8 services:gitlab:image: gitlab/gitlab-ce:15.11.2-ce.0restart: alwayscontainer_name: gitlab-ceprivileged: truehostname: 192.168.44.235environment:TZ: Asia/ShanghaiGITLAB_OMNIBUS_CONFIG: |exter…

【PX4_Autopolite飞控源码】中飞控板初始化过程中的引脚IO控制(拉低/拉高)

先选择自己飞控板支持的硬件平台 打开对应的路径我的是Desktop/px4/PX4-Autopilot/boards/zhty/nora 找到board_config.h文件,打开nora后再往下去找Desktop/px4/PX4-Autopilot/boards/zhty/nora/src/borad_config.h 打开后可以看到有很多GPIO引脚的定义&#xff0c…

如何使用Postman优雅地进行接口自动加密与解密

引言 在上一篇文章中,分享了 Requests 自动加解密的方法,本篇文章分享一下更加方便的调试某个服务端接口。 Postman Postman 这个工具后端小伙伴应该相当熟悉了,一般情况下我们会在开发和逆向过程中使用它来快速向接口发送请求,…

Spring Boot——统一功能处理

1. 拦截器 拦截器主要用来拦截用户的请求,在指定方法前后,根据业务需要执行设定好的代码,也就是提前定义一些逻辑,在用户的请求响应前后执行,也可以在用户请求前阻止其执行,例如登录操作,只有登…

PYTORCH基础语法知识

初识Torch PyTorch,简称Torch,主流的经典的深度学习框架,深度学习的框架。 简介 PyTorch是一个基于Python的深度学习框架,它提供了一种灵活、高效、易于学习的方式来实现深度学习模型。PyTorch最初由Facebook开发,被…

C嘎嘎探索篇:栈与队列的交响:C++中的结构艺术

C嘎嘎探索篇:栈与队列的交响:C中的结构艺术 前言: 小编在之前刚完成了C中栈和队列(stack和queue)的讲解,忘记的小伙伴可以去我上一篇文章看一眼的,今天小编将会带领大家吹奏栈和队列的交响&am…

刷题日常(数据流中的中位数,逆波兰表达式求值,最长连续序列,字母异位词分组)

数据流中的中位数 描述 如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()…

SQL 复杂查询

目录 复杂查询 一、目的和要求 二、实验内容 (1)查询出所有水果产品的类别及详情。 查询出编号为“00000001”的消费者用户的姓名及其所下订单。(分别采用子查询和连接方式实现) 查询出每个订单的消费者姓名及联系方式。 在…

uniapp-vue2引用了vue-inset-loader插件编译小程序报错

报错信息 Error: Vue packages version mismatch: - vue3.2.45 (D:\qjy-myApp\admin-app\node_modules\vue\index.js) - vue-template-compiler2.7.16 (D:\qjy-myApp\admin-app\node_modules\vue-template-compiler\package.json) This may cause things to work incorrectly.…

VOLO实战:使用VOLO实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

【Linux】TCP网络编程

目录 V1_Echo_Server V2_Echo_Server多进程版本 V3_Echo_Server多线程版本 V3-1_多线程远程命令执行 V4_Echo_Server线程池版本 V1_Echo_Server TcpServer的上层调用如下,和UdpServer几乎一样: 而在InitServer中,大部分也和UDP那里一样&…

XG(S)-PON原理

前言 近年来,随着全球范围内接入市场的飞快发展以及全业务运营的快速开展,已有的PON技术标准在带宽需求、业务支撑能力以及接入节点设备和配套设备的性能提升等方面都面临新的升级需求XG(S)-PON(10G GPON)是在已有GPON技术标准上演进的增强下一代GPON技…

C语言学习 12(指针学习1)

一.内存和地址 1.内存 在讲内存和地址之前,我们想有个⽣活中的案例: 假设有⼀栋宿舍楼,把你放在楼⾥,楼上有100个房间,但是房间没有编号,你的⼀个朋友来找你玩,如果想找到你,就得挨…

前端---CSS(部分用法)

HTML画页面--》这个页面就是页面上需要的元素罗列起来,但是页面效果很差,不好看,为了让页面好看,为了修饰页面---》CSS CSS的作用:修饰HTML页面 用了CSS之后,样式和元素本身做到了分离的效果。---》降低了代…

H.265流媒体播放器EasyPlayer.js无插件H5播放器关于移动端(H5)切换网络的时候,播放器会触发什么事件

EasyPlayer.js无插件H5播放器作为一款功能全面的H5流媒体播放器,凭借其多种协议支持、多种解码方式、丰富的渲染元素和强大的应用功能,以及出色的跨平台兼容性,为用户提供了高度定制化的选项和优化的播放体验。无论是视频直播还是点播&#x…

零基础学安全--云技术基础

目录 学习连接 前言 云技术历史 云服务 公有云服务商 云分类 基础设施即服务(IaaS) 平台即服务(PaaS) 软件即服务(SaaS) 云架构 虚拟化 容器 云架构设计 组件选择 基础设施即代码 集成部署…

【AI绘画】Midjourney进阶:色调详解(上)

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AI绘画 | Midjourney 文章目录 💯前言💯Midjourney中的色彩控制为什么要控制色彩?为什么要在Midjourney中控制色彩? 💯色调白色调淡色调明色调 &#x1f4af…

前端适配:常用的几种方案

一、rem和第三方插件 rem与em不同,rem会根据html的根节点字体大小进行变换,例如1rem就是一个字体大小那么大,比如根大小font size为12px,那么1rem即12px,大家可以在网上寻找单位换算工具进行换算(从设计稿…