中文大模型评估基准:C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

论文:https://arxiv.org/abs/2305.08322

网站:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

一、导言

随着大语言模型的迅速发展,如何评估一个大模型的能力也成为了一个重要的话题,大模型的评估基准不同于以往在特定任务上的模型评估,而是强调在广泛的NLP任务上进行更加高级的能力的评估,如推理能力、数学难题解题能力、写代码等。在大语言模型评估的基准上,英文基准的评估已经出现了像MMLU、BIG-bench、HELM这样的具有一定代表性的评估基准,但是国内想要继续发展大语言模型,必须构建更加全面的中文评估基准,这就是本文评估基准C-Eval的提出提供了必要性和迫切性。C-Eval包含了四个难度级别的多项选择题:初中、高中、大学、专业,覆盖了52个不同的学科。

二、C-Eval概览

不同颜色代表不同的难度级别:初中、高中、大学、专业

 C-Eval的数据统计和例子

 三、C-Eval评估配件

1.  设计原则

概述:不同的LLM在简单场景(如简单聊天)下的表现可能是差不多的,真正体现不同模型之间差距的应该是比较复杂的任务场景,因此需要构建一个复杂全面的评估基准C-Eval。

尝试减轻数据污染:一些国家考试题(如高考)的试题在网络上是极其容易获取的,因此在大模型爬取互联网数据训练的时候,这些数据可能已经被纳入到训练数据中,容易造成数据污染。因此在构建评估集时没有直接使用结构化的数据,而是使用PDF或者Microsoft Word格式的数据进行解析,同时结合人工的标注,并将部分数据转化成Latex的格式,目的就是为了防止数据污染。

2.  数据收集

科目选择:初中、高中、大学、专业四个级别。包含中国初高中水平的标准科目,大学阶段从中国教育部列出的13个专业类别中选择了25个代表性科目,每个类别至少包含一门,保证全面性。专业级别从中国官方的职业资格目录选择12个代表性的职业。还将这些科目按其主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文学科和其他领域。

数据来源:主要是互联网上提供的免费的模拟考试题,学生共享的中国顶级大学的历年考试题,和从维普网站获取授权的非免费的研究生入学考试模拟题。

数据处理:数据的主要格式为PDF、Microsoft Word和一小部分的网页。PDF用OCR处理成文本,不能解析的人工处理,对于带有复杂数学符号的问题处理为Latex格式。C-Eval中所有问题都处理成带有四个选项的选择题。为每个主题都至少收集200个问题,并划分成开发集、验证集和测试集,用来作为后续Few-shot需要和CoT微调模型需要。

解释数据生成:思维链(CoT)数据生成:用GPT4一步一步生成推理,并人工标注。

3. C-Eval Hard

这个评估集是从C-Eval中挑选的八个具有挑战性的数学、物理和化学科目。包括:高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理。这些科目通常涉及复杂的LATEX方程,需要用非显然的推理过程解决,例子如下:

4. 评估 

使用准确性作为衡量标准。开发集和验证集的标签公布,但测试集的标签不会公布,为了防止训练LLM时将该部分数据混入预训练数据,保证公平性。用户只需要将模型预测提交到https://cevalbenchmark.com网站自动生成分数。

四、实验

1. 设置

少样本评估:为了更好地看到模型的潜在能力,在C-Eval上采用five-shot的方式进行测试,其中five-shot的样本从开发集中抽取。

提示:同时在C-Eval上进行answer-only (AO) 和 chain-of-thought (COT) 设置的评估。在某些例子上,CoT的方式会超出LLM的最大长度,采取动态减少例子的方式。其中,answer-only形式:

 CoT形式:

2. 模型 

本文在12个可获取的模型上进行了测试,包括OpenAI的GPT-4,ChatGPT等国外公司的模型和GLM,ChatGLM等国内机构发布的模型,公开的和未公开的模型均包含其中,模型展示如下:

 

3. 结果

一般比较

所有模型在C-Eval各个类别上的分数如下:five-shot answer-only:

five-shot CoT:

 

 从结果来看,在所有模型中,只有GPT-4的分数超过了60%,并且领先第二名的ChatGPT 14%。50B参数量以下的模型最多只比随机基线好上10%不到,与较大模型存在较大差距。这与最近10B模型经过微调效果可与ChatGPT接近的说法相悖,我们认为,小模型经过微调后可能在简单的任务上表现更好,但是在更复杂的任务上,它们的高级固有能力明显落后。

CoT是否有帮助?

本文在CoT和AO条件下都进行了对比,实验结果表明,几乎所有模型在CoT提示下的结果都跟AO差不多或者更低,证明CoT提示在C-Eval评估基准上并不必要,主要可能有几点原因:(1)C-Eval中的很多科目都不是推理密集型的,多余的推理步骤会损害模型的性能;(2)一些模型不能够利用CoT提示的好处,特别是那些没有经过CoT微调的模型。令人鼓舞地,CoT提示让一些模型在部分科目上产生了较大的提升,例如GPT4在大学物理科目上从50.6%提升到60.2%,在概率统计科目上从53.6%提升到62.0% ;ChatGLM在中学物理上从20.2%提升到41.0%,在高中地理上从29.2%提升到38.2%。

英文模型和中文模型的区别

这里对比了MiniMax和ChatGPT,之所以不对比GPT4是因为GPT4跟其他模型不在一个水平上,不具有对比意义。ChatGPT比MiniMax平均好上5.4%,MiniMax在中文知识科目上表现好于ChatGPT,例如毛泽东思想、艺术学、汉语言文学等,这也证明了往ChatGPT这类模型中增加中文知识的必要性;在STEM分类上ChatGPT明显优于MiniMax(12.3%),这证明二者的差距比平均上看的大得多。

C-Eval Hard的结果

GPT4只能取得54.9%的分数,这意味了C-Eval Hard的难度,在CoT提示下,GPT4的成绩略有提升。对比最明显的是MiniMax,在C-Eval Hard上只有25.0%的成绩,跟随机基线差不多,落后于ChatGPT 14.1%。在这些模型中只有GPT-4, ChatGPT和Claude取得有意义的成绩(高于随机10%)。

验证集的结果

模型在验证拆分集上的结果排名与测试集基本类似,因此开发者可以借助在验证集上的结果评估模型的性能。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34297.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「国际科技信息中心SCITIC论坛」从细胞、基因和人工智能,探讨智慧医疗的机遇和挑战...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年3月22日,由国际科技信息中心主办,AI TIME承办的SCITIC论坛“细胞,基因和人工智能:探索医学研究的未来”完美收官。SCITIC论坛由国际科技信息中心倾力打造&a…

C-Eval:构造中文大模型的知识评估基准

作者:符尧,何俊贤 排版:宋梓瑜 来源:海外独角兽 本项目立项于 2023 年 2 月 28 日,由上海交通大学、清华大学和爱丁堡大学共同完成,发布于 2023 年 5 月 22 日,原文链接:https://yao…

GPT(Chat)原理及其应用

摘要 遥想以往,人类沟通的方式只有口头或书面文字,但现在随着科技的发展,人类的沟通方式又得到了革命性的变化,即通过聊天机器人实现人机沟通。而GPT(Chat)中文聊天机器人又是其中的一种,它可以通过技术手段来自然地与…

AI:什么是智能?

本篇文章是博主在人工智能等领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在学习摘录和笔记专…

ChatGPT推荐的开源项目,到底靠不靠谱?

今天我们让ChatGPT推荐一些开源项目,看看这些项目到底靠不靠谱? 首先,我们需要明确一个概念,那就是什么是开源项目。开源项目是指代码开放、可自由使用、修改和分发的软件项目。开源项目的优点显而易见,它们免费、透明…

餐饮行业最新的经营模式——私域运营案例

疫情让许多企业发展面临巨大压力,而私域流量在这个时刻成为很多餐饮企业爱如珍宝的“救命稻草”。甚至有人预言,今年将可能是餐饮私域流量醒觉得第一年。目睹着越来越多的餐饮企业其中甚至还有餐饮大牌企业都加入私域流量中来。但好多餐饮人都不太了解私…

基于PHP的餐饮行业管理系统

第一章 绪论 1.1 系统开发背景 近年来,基于用户对网络信息传递的实时性以及高效性等方面的需求,使得信息化技术手段以及相关的产业结构得到的飞速的发展,其中最为出众的当属电商化的运营管理模式,其一经推广便受到了广泛的关注。…

【完善】微信餐厅点单小程序+后台管理系统的设计与实现(python实现)

前言 本文为完善上一篇文章餐厅点单小程序后台管理管理系统的设计与实现,旨在帮助有需要的小伙伴,更好的入门学习python3 djangovue开发的前后端分离框架。话不多说,开始我们的学习吧~ 项目介绍 本次系统设计分两大模块&#x…

餐饮门店数字化转型|餐厅管理系统小程序

餐饮行业规模非常庞大,每年都有大量公司或个体户入局,国内各类美食非常多,不同品类菜品都有大量需求,以前几乎在业的餐饮门店,只要运营得当,挣多挣少总归是有利的,也能很好的生存下去&#xff0…

【餐厅点餐平台|一】项目描述+需求分析

餐厅点餐平台导航 【餐厅点餐平台|一】项目描述需求分析 https://blog.csdn.net/weixin_46291251/article/details/126414430 【餐厅点餐平台|二】总体设计 https://blog.csdn.net/weixin_46291251/article/details/126422811 【餐厅点餐平台&#xff5…

校园外卖点餐系统——Day02【员工管理业务开发】

❤ 作者主页:欢迎来到我的技术博客😎 ❀ 个人介绍:大家好,本人热衷于Java后端开发,欢迎来交流学习哦!( ̄▽ ̄)~* 🍊 如果文章对您有帮助,记得关注、点赞、收藏、…

餐道中台如何赋能餐饮零售企业?

前不久,餐道A轮融资1亿元,是近期餐饮行业信息化领域最大的一笔。这家公司融资的目的是为了加强“SaaS 业务数据双中台”系统研发。那么,这家公司是谁,为什能拿到融资,此次融资之后会朝着何处发展,为业内带来…

餐饮行业管理系统技术开发详细步骤详解

一. 项目介绍 本系统主要应用在餐饮行业,可以适用于中餐、西餐、快餐、火锅、烤肉等,主要功能分前端和后端两部分。前端主要完成就餐客户的餐厅预定及点菜环节,后端主要完成餐厅、餐桌的设置,菜品的设置等 系统分为前端和后台两…

教你如何实现门店餐饮快速裂变的解决方案

随着互联网市场的迅速发展,很多实体店受到电商行业的影响,客流量是越来越少,再加上这几年的疫情影响,实体店真的是越来越难做了特别是餐饮行业,以至于身边随处可见的门店关门、转让。难道就实体店就走向谷底了吗&#…

外卖项目01---软件开发整体介绍

目录 一、软件开发整体介绍 03 1.1软件开发流程 03 1.2角色分工 1.3软件环境 二、外卖项目介绍 04 2.1项目介绍 2.2产品原型展示 2.3技术选型 2.4功能架构 2.5项目上线后的角色分类 三、开发环境搭建 05 3.1数据库环境搭建 3.2maven项目搭建 06 四、后台登陆功…

如何为餐饮商家打造代运营解决方案?

外卖行业成餐饮主战场之一,食咖助力商户抢占流量入口 外卖行业是目前餐饮的另外一个非常重要的主战场,作为其细分领域,外卖代运营主要集中在产业图谱中的平台端口,食咖代运营的核心,是运营团队落地助力商户抢占线上的…

案例:基于大数据的餐饮公司会员营销及O2O应用策略

来源:软件定义世界 主讲嘉宾:龚光宇,上海一茶一坐餐饮有限公司CIO&CMO,来自台湾,24年IT工作经验,2004年加入上海一茶一坐餐饮有限公司任CIO,2012年兼任CMO,2011年IT经理世界中国…

餐饮企业提升用户价值,从基于点单链路的精细化运营开始

近几年,餐饮业的经营增长面临着巨大挑战,在这种情况下,餐饮企业如何提升用户价值,提高多风险下持续增长的动力呢?神策数据杨丽月聚焦用户运营,围绕“一条链路,四个指标”,跟大家分享…

Whale帷幄 - 餐饮店怎么运营管理 餐饮门店运营管理方案

您在管理门店时,是否有这些烦恼? 数据四处分散,难以统一采集治理门店规范不一致,难以远程实时监督线下门店体验差,难以洞察顾客轨迹门店运营成本高,难以评估业绩ROI 帷幄空间数据平台(SDP&…

外卖项目05---套餐管理业务开发

套餐:一组菜品的集合 点击之后就会弹出下面的界面: 上面是后台的管理操作,下面是处理完成后在用户端展示的界面效果: 目录 一、新增套餐 70 1.1需求分析 70 1.2数据模型 70 1.3新增套餐---代码开发---准备工作&梳理交互过…