论文:https://arxiv.org/abs/2305.08322
网站:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
一、导言
随着大语言模型的迅速发展,如何评估一个大模型的能力也成为了一个重要的话题,大模型的评估基准不同于以往在特定任务上的模型评估,而是强调在广泛的NLP任务上进行更加高级的能力的评估,如推理能力、数学难题解题能力、写代码等。在大语言模型评估的基准上,英文基准的评估已经出现了像MMLU、BIG-bench、HELM这样的具有一定代表性的评估基准,但是国内想要继续发展大语言模型,必须构建更加全面的中文评估基准,这就是本文评估基准C-Eval的提出提供了必要性和迫切性。C-Eval包含了四个难度级别的多项选择题:初中、高中、大学、专业,覆盖了52个不同的学科。
二、C-Eval概览
不同颜色代表不同的难度级别:初中、高中、大学、专业
C-Eval的数据统计和例子
三、C-Eval评估配件
1. 设计原则
概述:不同的LLM在简单场景(如简单聊天)下的表现可能是差不多的,真正体现不同模型之间差距的应该是比较复杂的任务场景,因此需要构建一个复杂全面的评估基准C-Eval。
尝试减轻数据污染:一些国家考试题(如高考)的试题在网络上是极其容易获取的,因此在大模型爬取互联网数据训练的时候,这些数据可能已经被纳入到训练数据中,容易造成数据污染。因此在构建评估集时没有直接使用结构化的数据,而是使用PDF或者Microsoft Word格式的数据进行解析,同时结合人工的标注,并将部分数据转化成Latex的格式,目的就是为了防止数据污染。
2. 数据收集
科目选择:初中、高中、大学、专业四个级别。包含中国初高中水平的标准科目,大学阶段从中国教育部列出的13个专业类别中选择了25个代表性科目,每个类别至少包含一门,保证全面性。专业级别从中国官方的职业资格目录选择12个代表性的职业。还将这些科目按其主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文学科和其他领域。
数据来源:主要是互联网上提供的免费的模拟考试题,学生共享的中国顶级大学的历年考试题,和从维普网站获取授权的非免费的研究生入学考试模拟题。
数据处理:数据的主要格式为PDF、Microsoft Word和一小部分的网页。PDF用OCR处理成文本,不能解析的人工处理,对于带有复杂数学符号的问题处理为Latex格式。C-Eval中所有问题都处理成带有四个选项的选择题。为每个主题都至少收集200个问题,并划分成开发集、验证集和测试集,用来作为后续Few-shot需要和CoT微调模型需要。
解释数据生成:思维链(CoT)数据生成:用GPT4一步一步生成推理,并人工标注。
3. C-Eval Hard
这个评估集是从C-Eval中挑选的八个具有挑战性的数学、物理和化学科目。包括:高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理。这些科目通常涉及复杂的LATEX方程,需要用非显然的推理过程解决,例子如下:
4. 评估
使用准确性作为衡量标准。开发集和验证集的标签公布,但测试集的标签不会公布,为了防止训练LLM时将该部分数据混入预训练数据,保证公平性。用户只需要将模型预测提交到https://cevalbenchmark.com网站自动生成分数。
四、实验
1. 设置
少样本评估:为了更好地看到模型的潜在能力,在C-Eval上采用five-shot的方式进行测试,其中five-shot的样本从开发集中抽取。
提示:同时在C-Eval上进行answer-only (AO) 和 chain-of-thought (COT) 设置的评估。在某些例子上,CoT的方式会超出LLM的最大长度,采取动态减少例子的方式。其中,answer-only形式:
CoT形式:
2. 模型
本文在12个可获取的模型上进行了测试,包括OpenAI的GPT-4,ChatGPT等国外公司的模型和GLM,ChatGLM等国内机构发布的模型,公开的和未公开的模型均包含其中,模型展示如下:
3. 结果
一般比较
所有模型在C-Eval各个类别上的分数如下:five-shot answer-only:
five-shot CoT:
从结果来看,在所有模型中,只有GPT-4的分数超过了60%,并且领先第二名的ChatGPT 14%。50B参数量以下的模型最多只比随机基线好上10%不到,与较大模型存在较大差距。这与最近10B模型经过微调效果可与ChatGPT接近的说法相悖,我们认为,小模型经过微调后可能在简单的任务上表现更好,但是在更复杂的任务上,它们的高级固有能力明显落后。
CoT是否有帮助?
本文在CoT和AO条件下都进行了对比,实验结果表明,几乎所有模型在CoT提示下的结果都跟AO差不多或者更低,证明CoT提示在C-Eval评估基准上并不必要,主要可能有几点原因:(1)C-Eval中的很多科目都不是推理密集型的,多余的推理步骤会损害模型的性能;(2)一些模型不能够利用CoT提示的好处,特别是那些没有经过CoT微调的模型。令人鼓舞地,CoT提示让一些模型在部分科目上产生了较大的提升,例如GPT4在大学物理科目上从50.6%提升到60.2%,在概率统计科目上从53.6%提升到62.0% ;ChatGLM在中学物理上从20.2%提升到41.0%,在高中地理上从29.2%提升到38.2%。
英文模型和中文模型的区别
这里对比了MiniMax和ChatGPT,之所以不对比GPT4是因为GPT4跟其他模型不在一个水平上,不具有对比意义。ChatGPT比MiniMax平均好上5.4%,MiniMax在中文知识科目上表现好于ChatGPT,例如毛泽东思想、艺术学、汉语言文学等,这也证明了往ChatGPT这类模型中增加中文知识的必要性;在STEM分类上ChatGPT明显优于MiniMax(12.3%),这证明二者的差距比平均上看的大得多。
C-Eval Hard的结果
GPT4只能取得54.9%的分数,这意味了C-Eval Hard的难度,在CoT提示下,GPT4的成绩略有提升。对比最明显的是MiniMax,在C-Eval Hard上只有25.0%的成绩,跟随机基线差不多,落后于ChatGPT 14.1%。在这些模型中只有GPT-4, ChatGPT和Claude取得有意义的成绩(高于随机10%)。
验证集的结果
模型在验证拆分集上的结果排名与测试集基本类似,因此开发者可以借助在验证集上的结果评估模型的性能。