LLM模型中英文评测基准

文章目录

  • 中文评测基准
    • C-Eval
    • Gaokao
    • AGIEval
    • CMMLU
    • PromptCBLUE
  • 英文评测基准
    • MMLU
    • Open LLM Leaderboard

中文评测基准

Awesome-Chinese-LLM:https://github.com/HqWu-HITCS/Awesome-Chinese-LLM
该项目收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

C-Eval

C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

论文地址:https://arxiv.org/pdf/2305.08322v1.pdf
在这里插入图片描述
不同颜色的主体表示四个难度等级:初中、高中、大学和专业。

github地址:https://github.com/SJTU-LIT/ceval

C-Eval榜单是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础模型套件)。它由13948个选择题组成 问题跨越52个不同的学科和四个难度级别,测试集用于模型评估(简单来说就是针对中文模型的综合测试机)

C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html
在这里插入图片描述
榜单是会实时发生变化的。
数据集地址:https://huggingface.co/datasets/ceval/ceval-exam

Gaokao

Evaluating the Performance of Large Language Models on GAOKAO Benchmark
论文地址:https://arxiv.org/abs/2305.12474

Gaokao 是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。

GAOKAO-bench是一个以中国高考题目为数据集,旨在提供和人类对齐的,直观,高效地测评大模型语言理解能力、逻辑推理能力的测评框架。

GAOKAO-bench收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数。

github地址:https://github.com/OpenLMLab/GAOKAO-Bench

数据集

题目类型题目数量数量占比
选择题178163.36%
填空题2187.76%
解答题81228.89%
题目总数2811100%

数据集包含以下字段

字段说明
keywords题目年份,科目等信息
example题目列表,包含题目具体信息
example/year题目所在高考卷年份
example/category题目所在高考卷类型
example/question题目题干
example/answer题目答案
example/analysis题目解析
example/index题目序号
example/score题目分值

下图是gpt-3.5-turbo历年的高考得分,其中GAOKAO-A代表理科科目,GAOKAO-B代表文科科目。
在这里插入图片描述

AGIEval

AGIEval:AHuman-CentricBenchmarkfor EvaluatingFoundationModels
论文地址:https://arxiv.org/pdf/2304.06364.pdf

AGIEval 是一个以人为中心的基准,专门设计用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试,例如普通大学入学考试(例如中国高考和美国 SAT)、法学院入学考试考试、数学竞赛、律师资格考试、国家公务员考试。

AGIEval v1.0包含20个任务,其中包括两个完形填空任务(高考-数学-完形填空和数学)和18个多项选择题回答任务(其余)。多项选择题回答任务中,高考物理和JEC-QA有一个或多个答案,其他任务只有一个答案。您可以在下表中找到完整的任务列表。
在这里插入图片描述

CMMLU

论文:CMMLU: Measuring massive multitask language understanding in Chinese
github地址:https://github.com/haonan-li/CMMLU

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
在这里插入图片描述

PromptCBLUE

PromptCBLUE: 中文医疗场景的LLM评测基准

github地址:https://github.com/michael-wzhu/PromptCBLUE

为推动LLM在医疗领域的发展和落地,华东师范大学王晓玲教授团队联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。PromptCBLUE作为CCKS-2023的评测任务之一,已在阿里巴巴天池大赛平台上线进行开放评测。

英文评测基准

MMLU

Measuring Massive Multitask Language Understanding
论文地址:https://arxiv.org/abs/2009.03300
测试 github地址:https://github.com/hendrycks/test
MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。

Open LLM Leaderboard

Open LLM Leaderboard是由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA四个数据集上的表现,主要以英文为主。
榜单地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5578.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科

作者 |Python ChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考&…

看百度文心一言实力,再聊ChatGPT触类旁通的学习能力如何而来?

图文原创:亲爱的数据 美国大模型水平领先,国内大模型蓄势而发。 国内大模型参与者众多,百度文心一言第一个有勇气站出来发布。 此处应有掌声。 事前事后,中国网友的呐喊声不绝于耳:“文心一言到底什么水平啊&#xff1…

山东大学教授团畅谈ChatGPT革命座谈会,探讨ChatGPT发展趋势

2月18日,由山东大学多院系教授学者组成的山东大学教授团在济南福瑞达自贸创新产业园举行了“畅谈ChatGPT革命”座谈会,诸位教授学者就ChatGPT出现的影响进行了探讨。 产业园首席顾问李铁岗教授向大家介绍产业园区 山东大学经济学院教授、济南福瑞达自贸创…

ChatGPT最强对手,实测却输给了文心一言!

侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌! 就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好…

漫画科普ChatGPT:绝不欺负文科生

图文原创:亲爱的数据 你所热爱的,都值得拥有一个名字。 世界上里程碑式计算机,问世之时大多拥有自己的名字。 我认为,假如计算机的诞生是元年,下一个元年将会是“奇点”。 不是比特币,不是虚拟现实&…

为什么说 ChatGPT 引爆第四次工业革命?

如果看不懂当下,请回忆历史,因为曾经发生过。 如果忘记了历史,请看看当下,因为历史正在重演。 我问佛:何为对的人? 佛说:一见你 ,就笑的人;一见,你就笑的人&a…

ChatGPT为我们带来了什么?

近两周,AI频频占据头条。 “用三秒完成我一天的活。”ChatGPT为中国众多的小型、产业链分布绵长的跨境电商企业降低了获得定制化方案的成本。许多商家相信,ChatGPT还能处理大量的财务报表和数据分析模型,这也广大跨境电商不需要再花钱聘请外…

利用 ChatGPT 解决某些网站文章不允许复制粘贴的限制

如下图所示,假设我想把这段文字复制下来,但是在浏览器里点击右键,会遇到 禁止转载的错误提示,此时 Ctrl C 也不工作。 可以在 Chrome 开发者工具里,切换到 Element 图标,把想要复制粘贴的文字对应的 elemen…

ChatGPT能为ERP带来什么改变

ChatGPT是什么 几十年来,企业资源规划 (ERP) 系统一直是许多企业的支柱。企业通过ERP来完成业务数据的采集、归纳、整理,生成反映业务状况的各式经营报表。但是它也是一项需要投入巨大的人力资源和硬件设备的项目,比如ERP基础数据的录入&…

为什么ChatGPT用Python实现?

可能你不知道, ChatGPT这个网站的后端居然是用Python实现的。 在一些人眼里,Python只能用来写写脚本、搞搞爬虫、做些小项目之类的,其实这是对Python的最大偏见。 因为Python早就被证明可以应用在大型项目中,特别是国外很多明星…

ChatGPT为什么那么火?

ChatGPT自推出以来,因其多样化的玩法,受到了世界各地互联网爱好者的热捧。打开 Google 关键字分析工具,我们可以看到,美国地区的ChatGPT 词条月搜索量已经达到 36 万次,热度持续不减。根据最新的消息,微软将…

反其道而行,大学教授鼓励学生用 ChatGPT 写论文

整理 | 屠敏 责编 | 张红月 出品 | CSDN(ID:CSDNnews) 新 AI 工具 ChatGPT 的到来,正在教育圈呈现出冰火两重天的态势,教授们几家欢喜几家愁。 这不近日,来自宾夕法尼亚大学沃顿商学院的一位专门研究创…

ChatGPT团队揭秘:3清华、1北大、1华科

Datawhale分享 分析:ChatGPT团队,来源:AIGC开放社区 Aminer和智谱研究发布了《ChatGPT团队背景研究》报告,深度揭示了这款火爆全球应用的背后团队的总体人员架构。 调查发现,ChatGPT团队只有87人,其显著特…

ChatGPT 团队阵容揭秘:3清华、1北大、1华科

程序员的成长之路 互联网/程序员/技术/资料共享 关注 阅读本文大概需要 3.5 分钟。 来自:Aminer和智谱研究 Aminer和智谱研究发布了《ChatGPT团队背景研究》报告,深度揭示了这款火爆全球应用的背后团队的总体人员架构。 调查发现,ChatGPT团队…

用ChatGPT写论文,震惊了!

当代研究生内卷现状—— 每天在实验室熬到半夜鸡叫,but,该有的实验数据一个也没得。 为了准备组会前一天呕心沥血搞ppt,but,老师的一句论文进度怎么样,瞬间颤抖。 那个总是抓住空隙打游戏的学弟发了一篇一作二区&#…

什么?还能让ChatGPT自己给自己写提示(Prompt)?

作者:ChenZhen 博客地址:https://www.chenzhen.space/🌐 版权:本文为博主 ChenZhen 的原创文章,本文版权归作者所有,转载请附上原文出处链接及本声明。📝 如果对你有帮助,请给一个小…

算法趣题-Q37

一、问题描述 二、问题分析 一开始,我使用了贪心的方式(也在C/C实现中,是错的),认为短视能够获得好的结果,运行结果确实是13步最少,但是路径却不是数组路径,debug发现在0开始的贪心路…

一些通过数学分析解决的算法题汇总

写在前面 如果觉得写得好,或者有所帮助,记得点个关注和点个赞,不胜感激! 我发现最近经常会遇到一些需要通过数学分析去解决的问题,做的时候想着各种方法,然后看到题解,发现可以用数学分析的方式…

演示求解中学数学题(Mathematica)

#高二解析几何题# 在[-3,4]区间上动曲线2x^24xc跟曲线1/3x^3x^2x有两个公共点,求c的取值范围. (现在高中的数学题难度已经算是高了;需要高等数学知识了) 直接求解: ClearAll["Global*"]; xmin -4; xmax 5; ymin -15; ymax 50; \ xnum 4; ynum 2; v Table[Ma…

算法-数学题

目录 50. Pow(x, n)54. 螺旋矩阵剑指 Offer 10- I. 斐波那契数列169. 多数元素剑指 Offer 39. 数组中出现次数超过一半的数字 191. 位1的个数剑指 Offer 15. 二进制中1的个数剑指 Offer 56 - I. 数组中数字出现的次数剑指 Offer 56 - II. 数组中数字出现的次数 II剑指 Offer 58…