本文旨在介绍多个用于测试大模型能力的数据集,包括数据集内容、数据量、格式、题型和链接
1. MMLU (Massive Multitask Language Understanding)
- 内容:涵盖57个主题,从高中到专业水平,涉及科学、人文、历史等,测试模型的广泛知识和推理能力。
- 数据量:57个主题共计14,000多道多选题。
- 格式:多选题,每题包含四个选项。
- 题型:多选题。
- URL:MMLU on GitHub
2. C-Eval (Chinese Evaluation)
- 内容:专为测试中文语言模型设计,涉及基础学科、应用学科和通用知识,涵盖52个学科,适用于小学到本科层次。
- 数据量:共13,948个问题。
- 格式:多选题,每题有四个选项。
- 题型:多选题。
- URL:C-Eval on GitHub
3. GSM8k
- 内容:包含小学数学的文本题目,测试模型的数理逻辑和推理能力。
- 数据量:8,000道题目。
- 格式:开放性题目,答案为纯数字或简短文本。
- 题型:填空题或解答题。
- URL:GSM8k on GitHub
4. Math
- 内容:该数据集包含数学难题,覆盖从基础到高等数学领域,用于测试模型的数学推理和计算能力。
- 数据量:12,500道题目。
- 格式:开放性题目,答案通常为一个数值或方程解。
- 题型:填空题或解答题。
- URL:Math Dataset
5. BBH (Big-Bench Hard)
- 内容:Big-Bench Hard 是一系列高难度语言任务的集合,挑战模型的复杂推理和知识能力。
- 数据量:涵盖数十个高难度任务,问题数量和内容随具体任务而不同。
- 格式:多种格式,包括多选题、填空题和生成式问题。
- 题型:混合题型。
- URL:Big-Bench on GitHub
6. HumanEval
- 内容:由Python代码问题组成,测试模型的代码生成和编程能力。
- 数据量:164道编程题。
- 格式:编程题,要求输出正确的代码。
- 题型:代码编写题。
- URL:HumanEval on GitHub
7. MBPP (Mostly Basic Programming Problems)
- 内容:基础编程问题,测试模型编程和代码生成的基本能力。
- 数据量:500道编程问题。
- 格式:编程题,要求模型生成正确的代码。
- 题型:代码编写题。
- URL:MBPP on GitHub
8. AGIEval
- 内容:涵盖了GRE、SAT等标准化考试的题目,测试模型的学术知识水平和理解能力。
- 数据量:包含多个标准化考试的子集。
- 格式:多选题和填空题。
- 题型:多选题和填空题。
- URL:AGIEval on GitHub
9. GaoKao-Bench
- 内容:中国高考题目,涵盖数学、语文、英语等多个科目,测试模型的知识储备和应用能力。
- 数据量:包含从多份高考试卷中整理的题目。
- 格式:多种题型,包括选择题、填空题、解答题等。
- 题型:多种题型。
- URL:GaoKao-Bench on GitHub
备注
个人水平有限,有问题随时交流~