1. MMLU
MMLU 是衡量LLM在预培训阶段通过零起点和少量学习获得知识的综合基准。它包含 57 个学科,涵盖了 STEM、人文、社会科学、法律和伦理学等不同领域。这些学科共同评估了LLM对众多学术和专业领域的理解的广度和深度。
2. C-EVAL
是一个综合性的中文评估套件,专门用于评估中国背景下LLM的高级知识和推理能力。与 MMLU(Hendrycks 等人,2021 年)类似,它包括 52 个学科,从人文科学到科学和工程学,分为四个难度等级:中学、高中、大学和专业
3. FLORES-200
是一个高质量的机器翻译基准,涵盖 204 种语言,是其前身 FLORES-101 (Goyal 等人,2022 年)语言覆盖范围的两倍。每种语言的每个句子都由专业译员翻译成其他语言。这一独特功能使 FLORES200 成为多对多翻译基准。因此,FLORES-200 基准特别适合评估源语言和目标语言都涉及的翻译方向。
4.CNN/Daily
是抽象多句摘要的宝贵资源。它源自 Hermann 等人(2015 年)之前创建的基于段落的问题解答数据集,使用的是 CNN 和每日邮报网站上由人类生成的新闻故事抽象摘要要点。这些摘要最初被用作带有屏蔽实体的问题,并与相应的段落配对,系统有望从中生成答案。CNN/DailyMail 是通过还原每篇报道的所有原始摘要条目而构建的,将它们视为独立的句子,以形成连贯的多句摘要。CNN/DailyMail 包含大量实例,包括 286817 个训练实例、13368 个验证实例和 11487 个测试实例。
5. XSum
是开发和评估抽象单篇文章摘要系统的基础资源。它来源于英国广播公司(BBC)的在线文章,这些文章通常包含专业撰写的介绍性句子,作为简洁的单句摘要,概括了整篇文章的精髓。XSum 涵盖的领域非常广泛,包括新闻、政治、体育、天气等。值得注意的是,与 CNN/DailyMail 相比,XSum 中的文档和摘要更短。此外,XSum 中的摘要明显更具抽象性,源文件中不存在的新颖 n-grams 所占比例很高就是证明。数据集被随机分为训练(90%)、验证(5%)和测试(5%)三个部分。
6. GSM8K
是一个包含 8,500 个高质量小学数学单词问题的数据集,旨在评估 LLM 的多步骤数学推理能力。该数据集经过精心策划,以确保高度的语言多样性。GSM8K 中包含的问题只涉及相对简单的数学概念,聪明的初中生可以通过 2 到 8 步的基本算术运算(如加、减、乘、除)来解决这些问题。
7. SNLI
是一个由人类注释的大规模句子对集合,专门用于训练和评估机器学习模型的自然语言推理(NLI)任务。SNLI 中的所有句子都是由人类撰稿人在基于图像标题的基础上下文中编写的,从而确保这些句子反映了自然语言的使用,而不是通过算法生成的。数据集中的每对句子都被标记为包含、矛盾或中性。SNLI 分成训练、开发和测试三个部分。开发和测试部分各包含 10,000 个示例。我们在评估实验中特别使用了测试部分。
8. FollowBench
是一个综合性基准,主要通过各种细粒度限制来评估 LLM 的指令遵循能力。它包括五个不同的细粒度约束:内容、情境、风格、格式和示例。该基准专门针对现有评估基准的局限性而设计,现有评估基准主要评估应答的质量,而不衡量应答是否遵守特定的指令约束。FollowBench 有英文和中文两种语言版本,我们的评估实验使用的是英文版本。
9. TruthfulQA
是一个旨在评估LLM真实性的基准。它由 817 个问题组成,涉及 38 个类别,包括健康、法律、金融和政治。这些问题经过精心设计,可以根据一些人类可能会给出的常见误解或错误信念诱导出错误答案。TruthfulQA 包含两个不同的任务,即生成任务和多项选择任务。这两项任务使用相同的问题集和参考答案,从而确保了评估的一致性。继 Zou 等人(2023 年)之后,我们在多选任务中对模型进行评估。
10. BBQ
是评估语言学硕士中存在的社会偏见程度的基准,特别是在回答问题任务方面。它从九个社会维度对受保护群体的偏见进行评估,这些社会维度与美国英语环境尤为相关。该基准包括各种问题集,其中有答案不明确的模糊语境,也有可以非常肯定地确定正确答案的歧义语境。数据集中的每个示例都由四道多项选择题组成,包括否定式和非否定式两种变体,并在有或没有消歧义语境的情况下呈现。否定式问题旨在测试反映社会偏见的刻板印象,而非否定式问题则通过评估模型的回答是否显示出对特定标签的偏见来补充这一点。