RiceChem——用于评估大语言模型在教育领域自动长答卷评分 (ALAG) 的数据集

摘要

论文地址:https://arxiv.org/abs/2404.14316
源码地址：https://github.com/luffycodes/automated-long-answer-grading
迄今为止，教育领域的自然语言处理（NLP）主要集中在简答题评分和自由文本作文评分方面。然而，本文从一个新的角度出发，研究了自动长答卷评分（ALAG）这一相对尚未开发的领域。

对自由文本文章的评估是根据其连贯性和原创性等特点，而长文本作答则是事实性的，需要更复杂的评分方法。传统的自动简答评分法（ASAG）将作答分为五类：正确、部分正确、不一致、不相关和超出领域，但长篇作答可能同时表现出多个类别的特征，因此五类不足以对长篇作答进行评分。

因此，为了进一步推动 ALAG 的研究，本文创建了自己的数据集 RiceChem，该数据集收集了大学化学课程中的 1,264 个长回答；RiceChem 基于 27 个评分标准项目，每个回答都有评分，总共有 8,392 个数据集。总共有 8,392 个数据集。该数据集的平均字数为 120，远高于现有数据集（SciEntsBank：13；Beetle：10；Texas 2011：18），因此适合用于 ALAG 研究�

考虑到传统 ASAG 方法的局限性，ALAG 已被重新定义为一项包含评分标准的任务。在这种新方法中，每个评分标准项目都是学生作答必须符合的标准。自然语言推理模型用于确定每个评分标准是否包含在答卷中，从而实现更精细、更全面的评分。

为了利用 RiceChem 数据集为 ALAG 任务设定基线，对 BERT、RoBERTa 和 BART 等编码器模型进行了微调。因此，使用基于评分标准的方法显然会增加 ALAG 的复杂性：与传统的基于分数的方法相比，ALAG 中基于评分标准的格式能更准确地捕捉学生回答的细微差别和多面性。

它还检查了模型在冷启动情况下的性能，为数据效率和在教育环境中的实际部署提供了宝贵的见解�

此外，还在 RiceChem 中对最先进的开源大规模语言模型进行了基准测试，并将这些结果与 GPT 模型进行了比较。这揭示了 ALAG 与 ASAG 相比有多么复杂。即使使用基于评分标准的方法，大型语言模型在 RiceChem 上的表现也比 ASAG 的 SciEntsBank 差，这表明 ALAG 任务非常困难。

本研究是在教育 NLP 领域解决自动长表分级（ALAG）问题的首次尝试之一�

数据集和方法

本节首先介绍原始 RiceChem 数据集，然后定义 ALAG 任务问题。下图是本文提出的利用 RiceChem 数据集进行自动长表分级（ALAG）的示意图。

在这里插入图片描述

该图强调了将 ALAG 表述为评分标准包含问题的一种新方法。每个学生的回答（假设）都与相应的评分标准项目（假设）配对，这些配对由经过微调的 ALAG 转换器模型处理。该模型可预测一个回答是否意味着一个评分标准项目；在 RiceChem 中使用评分标准可进行详细的逐点评估，并通过设计使评分过程具有可解释性。

如上所述，RiceChem 数据集的开发是为了验证 ALAG 任务。该数据集不仅是 ALAG 研究人员的宝贵资源，还有助于开发更可靠、更可解释的评分系统，使用评分标准为学生提供有意义的反馈。

RiceChem 包含从大学化学课程中收集的 4 道试题、27 个评分标准项目和 1264 份评分的学生答卷。多名助教用 "真 "或 "假 "标签对学生对各个评分项目的回答进行评分。共有 4880 个 "真 "标签和 3512 个 "假 "标签。每个评分标准项目都有一个特定的分数，最终分数由正确回答评分标准项目的分数总和决定�

给定一个推理模型 M : (P, H) → L，它将前提 P 和假设 H 作为输入，并预测一个标签 L∈{True, False}，表示 P 是否暗示 H。要将评分表表述为推理问题，可将学生的回答 R 和评分标准项目 I 分别视为前提和假设。换句话说，（R，I）被输入模型 M 以预测标签 L�

本文提出的 ALAG 方法通过学习语言模型，从学生的回答中预测评分标准项目的含义，实现了这一表述。预测可以有效地识别学生回答中被正确处理的评分标准项目，并提供自动反馈。

实验和结果

它还强调了在 ALAG 中基于蕴涵和基于评分标准的表述的重要性，并证明了它们优于传统的基于分数的方法。我们还研究了这些模型在标记数据有限的情况下（冷启动）的性能，并讨论了在教育环境中实际部署的意义。最后，我们评估了 RiceChem 中最先进的开源大规模语言模型 (LLM) 的性能，并将结果与 GPT 模型进行了比较，以显示 ALAG 比 ASAG 更复杂。

首先，介绍使用 RiceChem 数据集的转换器语言模型的训练过程，以及整个实验中使用的评估指标：为了在 RiceChem 数据集上微调转换器模型，数据被分成 80-10-10 个训练-验证-测试，经过预处理后，再将数据分成 80-10-10 个学习-验证-测试，经过预处理后，再将数据分成 80-10-10 个学习-验证-测试，经过预处理后，再将数据分成 80-10-10 个学习-验证-测试。数据被分成 80-10-10 个学习-验证-测试，并进行预处理。对于每个问题，随机抽取 80% 的学生回答用于训练，10% 用于验证，10% 用于测试，以确保这些回答不会重叠。

实验使用 "拥抱脸 "变压器库进行。学习过程使用 NVIDIA A100-PCIE-40GB GPU。在学习过程中，使用了 AdamW 优化器，初始学习率设置为 2e-5。每次更新的迷你批次大小为 16，模型最多训练 10 次。超参数 α 和 β 分别设为 0.9 和 0.999。训练结束后，在验证数据中获得最高 F1 分数的模型被选为最佳模型进行评估。实验采用了一套全面的评估指标作为基准，包括准确度、拟合度、再现性和 F1 分数。为确保稳健性，报告了使用五种不同种子的五次运行的平均值和标准偏差。

在 RiceChem 数据集上评估了现代判别语言模型（如 BERT、RoBERTa 和 BART）的性能。下表比较了基本模型和大规模模型的结果。其中，大规模模型的结果优于基础模型，证明了使用更先进模型的优势。然而，由于微调的不稳定性，BERT 模型也存在一些例外情况。

在这里插入图片描述

下表还比较了语言模型在 RiceChem 数据集上的性能及其 MNLI 精细版本。结果表明，在 MNLI（多类型自然语言蕴涵语料库）数据集上微调的模型在准确率和 F1 分数上都有显著提高，突出了将 ALAG 表述为蕴涵问题的价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将 ALAG 正式化为蕴涵任务，可以使用包含前提假设对的 MNLI 数据集，这些前提假设对涵盖了广泛的主题和语言类型；MNLI 数据集拥有 400 万个示例，提供了丰富的语言知识和推理能力，可以有效地转移到 ALAG 任务中。MNLI 数据集有以下格式。

蕴涵表述法允许使用在 MNLI 数据集上预先训练过的模型，并通过对模型进行微调，充分了解假设和假说之间的蕴涵关系，从而有效地适应长表评分这一特定领域。

下表（转载）显示的性能改进证实了这种迁移学习方法的有效性：在使用 MNLI进行微调后，RoBERTa 模型的准确率提高了 3.2%，F1 分数提高了 2.8%。同样，BART 模型的准确率提高了 1.8%，F1 分数提高了 1.4%。这些改进表明，MNLI 数据集的知识成功转移到了 ALAG 任务中，而这是通过隐含表述实现的。

在这里插入图片描述

蕴涵式表述不仅可以使用 MNLI 等大型数据集，还为 ALAG 提供了一种更自然、更可解释的方法。将评分过程与确定学生答卷与评分标准项目之间的隐含关系的任务结合起来，可以创建一个更直观、更易于解释的框架。

事实证明，使用评分标准进行自动评分也能提高自动简答评分（ASAG）和自动作文评分（AEG）的成绩。本实验也证实了这一方法同样适用于自动长答案评分 (ALAG)。与传统的基于分数的方法相比，基于评分标准的方法平均准确率提高了 9.2%，F1 分数提高了 15.4%。
在这里插入图片描述

与之前对 ASAG 和 AEG 的研究类似，我们的实验证实了基于评分标准的形式在 ALAG 中的重要性。然而，长文本的复杂性和多面性使得基于评分标准的形式在 ALAG 中的重要性更加突出。

为了说明这一点，我们将传统的基于分数的方法与基于评分标准的 ALAG 方法进行了比较。在基于分数的方法中，RiceChem 数据集经过预处理，数据结构分为句子（学生回答）和标签（分数），语言模型预测 0 到 8 的整数分数。另一方面，基于评分标准的 ALAG 格式将评分过程分解成更小、更易于管理的部分，使模型能够专注于评分标准项目所定义的回答的特定方面。

下图（复制如下）显示，与传统的计分方法相比，基于评分标准的方法提高了 9.2% 的准确率和 15.4% 的 F1 分数。成绩的大幅提高突出表明了在 ALAG 中使用评分标准的重要性。通过将长篇回答的复杂评分任务分解为更小、定义明确的评分标准项目，该模型可以更有效地捕捉学生回答的细微差别和多面性。
在这里插入图片描述

制作高质量的评分标准具有挑战性，需要深思熟虑并付出努力。不过，这种努力只需一次，就能在后续的自动评分流程中反复受益。评分标准为评估答卷的关键方面提供了一个全面的框架，使评分结果更加准确可靠。在 ALAG 中使用评分标准不仅能提高模型的性能，还能增加评分过程的可解释性和透明度。通过将模型的预测与具体的评分标准项目相匹配，教育工作者和学生可以更清楚地了解作答的优缺点，从而促进有针对性的反馈和改进。

此外，在教育环境中，处理训练数据有限的新课程、科目和问题类型也很常见。因此，必须评估自动评分模型在冷启动环境下的表现，并了解其表现如何随着训练数据的增加而变化。本节的分析为了解模型的数据效率提供了有价值的见解，并有助于确定为获得令人满意的评分结果所需的最小标注数据量。

首先，评估了 RoBERTa-Large-MNLI 模型在未见过的问题上的性能，在一些问题上对模型进行了调整，并模拟了在没有事先训练数据的情况下对新问题答案进行评分的情景。在这项研究中，模型在数据集中的三个问题上进行了训练，其余未见问题则用于测试。

下表显示，该模型具有一定的通用性，对不同问题的准确率为 60.6% 至 68.7%，F1 分数为 0.629 至 0.717。这表明，针对类似问题类型进行微调的模型已经获得了一些可迁移的知识，可以处理未见过的问题，这对于缺乏新问题标注数据的教育环境是非常有价值的。

在这里插入图片描述

然后，随着训练数据量从 5% 增加到 80%，研究了 RoBERTa-Large 模型及其 MNLI 微调版本的性能。下图显示了两个模型的准确率和 F1 分数的变化趋势。不出所料，随着训练数据量的增加，性能也在不断提高：RoBERTa-Large 的准确率从 73.2% 提高到 84.1%，F1 分数从 0.772 提高到 0.864。同样，微调版 MNLI 的准确率从 79.2% 提高到 86.8%，F1 分数从 0.823 提高到 0.888。

在这里插入图片描述

RoBERTa-Large和RoBERTa-Large-MNLI的性能提升分别在训练数据量达到40%和20%之后有所下降。这一观察结果表明，即使标注的数据量相对较小，模型也能获得有竞争力的得分结果，超过一定程度后，额外数据的优势会变得不那么明显。此外，不同种子的准确率和 F1 分数的标准偏差都在 1.12% 以内，这表明了模型性能的可靠性和一致性。

此外，我们正在评估几个大型语言模型在 RiceChem 数据集上的零点性能，以评估这些模型在 ALAG（自动长文本分级）中的潜力。

在这里插入图片描述

尽管这些大规模语言模型在许多领域都有很高的表现，但事实证明 RiceChem 数据集是一个非常难对付的数据集。表现最好的模型 GPT-4 的准确率为 70.9%，F1 得分为 0.689，突出了 ALAG 任务的复杂性。与 GPT 模型在 ASAG 任务中的结果相比，这一结果尤为突出。

ASAG 和 ALAG 在复杂性上的差异可能比 F1 分数相差 5 分还要大：RiceChem 中使用的评分标准提供了一个结构化框架，提高了模型性能，但 GPT-4 仍然是没有评分标准的 ASAG在任务中的表现难以匹配。

下表中的结果（转载于下）也揭示了各种大规模语言模型在 RiceChem 数据集上的不同表现：虽然 GPT-4 和 GPT-3.5 表现最佳，但其他模型，如 Qwen1.5 32B Chat 和 Mistral 也表现出了可喜的结果，F1 分数分别为 0.456 和 0.429。F1 分数分别为 0.456 和 0.429。这些研究结果表明，大规模语言模型的架构和训练方法对其应对 ALAG 复杂性的能力有重大影响。

在这里插入图片描述

总之，在 RiceChem 数据集上对大规模语言模型进行基准测试凸显了 ALAG 任务所带来的独特挑战。即使有了评分标准的好处，ASAG 和 ALAG 任务之间的性能差距也凸显了进一步研究和开发专门用于评估基于事实的长篇回答的模型和技术的必要性。随着大规模语言模型的不断发展，探索其在 ALAG 中的潜力并制定策略以改进教育环境中的自动评分系统非常重要。

总结

本文介绍了一项新任务–自动长答案评分（ALAG），并提出了一个专为推进该领域研究而设计的 RiceChem 数据集：基于评分标准的 ALAG 表述为评估长答案提供了一种精心设计且适合教学的方法，与传统的自动简答评分（ASAG）方法相比，ALAG 的评估更为全面。与传统的自动简答评分（ASAG）方法相比，ALAG 提供了一种精细的、适合教学的评估长答案的方法，以及更全面的评估。

通过广泛的实验，它证明了基于评分标准的表述的重要性、隐式表述的价值以及冷启动情景所带来的挑战。此外，对最先进模型（包括大规模语言模型）的基准测试证实，与 ASAG 相比，ALAG 的挑战要大得多。

我们希望这项研究能促进教育 NLP 这一重要领域的进一步研究，并有助于开发先进的模型，以应对 ALAG 任务的复杂性和精密性。