全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力

2ef901e1f37dbe8e3450bd514bab671a.gif

©PaperWeekly 原创 · 作者 | 李浩楠

单位 | MBZUAI

研究方向 | 自然语言处理

如何评估大模型(LLM)的语言能力和知识储备一直备受学术界和工业界的关注。本文介绍了 CMMLU,一个全面的中文大模型基准。它涵盖了 67 个主题,涉及自然科学、社会科学、工程、人文、以及常识等,可以全面地评估大模型在中文知识储备和语言理解上的能力。我们测试近 20 个先进的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,我们发现大多数现有模型的难以达到 50% 准确率,而随机准确率为 25%。 

本文由 MBZUAI,上海交通大学,微软亚洲研究院合作完成。

59bc9c8244e1cf8d16b5da5cbdd09b41.png

论文题目:

CMMLU: Measuring massive multitask language understanding in Chinese

论文链接:

https://arxiv.org/abs/2306.09212

数据和代码和最新榜单

https://github.com/haonan-li/CMMLU

0ae999f55f78123360074f6fe60b0b6b.png

引言

在本文中,我们提出了 CMMLU,这是一个全新全面的中文评估数据集,旨在专门评估 LLM 在中文语言和文化背景下的高级知识和推理能力。

CMMLU 涵盖了 67 个主题(如图 1 所示),从小学到大学或专业水平。包括自然科学,以及人文和社会科学领域的学科,更包含了许多具有中国特色的内容,比如“中国饮食文化”,“名族学”,“中国驾驶规则”等等。我们已完全公开了数据,使社区可以自由方便地利用和评估他们的模型在是否适用于以中国为核心的中文人群。完整的学科列表、每个学科测试的概念数量以及问题和答案长度的统计信息均在论文中提供。

46f69b886c721f8f4c65e45fbc1a9c55.png

▲ 图1

为了更深入地了解 LLM 处理中文知识的能力,我们进行了全面的分析实验。我们首先研究模型在各个学科上的表现。所有模型在不同学科上的表现存在不平衡,人文社科学科得分相对较高,而中国特定主题和自然科学得分较低。为了进一步研究这个问题,我们探索了思路链提示词(Chain-of-Thought)和少样本示例(Few-shot)对于帮助模型理解任务和提高推理能力的有效性。此外,我们研究了模型大小对性能的影响,分析了问题长度与难度之间的关系,并探索了现有语言模型尚未有效解决的两种特定问题类型。

009ceb9a5fe84718fbbbd3d0e20f0485.png

CMMLU测试基准

2.1 数据收集 

CMMLU 数据集包含 11,528 个问题,涵盖了 67 个学科。每个学科至少有 105 个问题,我们将其分为包含 5 个问题的训练样本集(few-shot development set),以及包含超过 100 个问题的测试集(test set)。

2.2 数据格式 

数据集中的每个问题都是一个包含 4 个选项的单选题,图 2 是一个附加了提示的示例。对于数学公式、化学式和一些其他数学表达式,我们使用约一半的 Latex 和一半的纯文本的混合方式。

3535afd1b6e9debd7135832c69b8259c.png

 ▲ 图2

其中只有在一个表达式被广泛使用且不易产生歧义时,才允许使用纯文本(由注释者判断)。例如,水的化学式 可以写为纯文本“H2O”,或者使用 Latex 格式“”。

571b743e677735f00ea8f517f20e92e6.png

实验 

为了在中文语境下提供现有开源 LLM 在语言理解方面的概览,我们评估约 20 个不同规模、语言方向和阶段(预训练或微调)的先进 LLM。我们分析了它们在这个以知识为中心的基准测试上的性能,并研究了可能影响 LLM 性能的几个因素。

3.1 实验设置 

我们的目标是评估 LLM 在预训练和/或微调过程中所利用的知识。对于开源模型,我们遵循 MMLU 的方法获取提示后的下一个标记的概率,并在 A’、B’、C’ 和 D’中选择概率最高的选项作为模型的选择。对于 ChatGPT 等非开源模型,我们生成输出并使用一系列正则表达式提取模型的选择。如果正则表达式没有匹配到任何内容,我们会随机选择 A’、B’、C’、D’ 中的一个选项作为答案,以进行模型间的公平比较。我们对零样本(不输入示例)和少样本(输入少量示例)的设置都进行了实验。

3.2 提示词 

我们使用短语“以下是关于[主题]的单项选择题,请直接给出正确答案的选项”引入每个问题。对于零样本评估,我们直接在提示后呈现问题。对于少样本评估,我们在问题之前提供多达 5 个带有答案的示例。提示以短语“答案是:”结尾,如图 2 中的示例所示。如果带有少样本示例的文本长度超过模型的最大长度,我们会动态删除最长的(按子标记计算)示例(最新榜单请看 github)。

b98e23597f46109c01bdc6c61f12eb60.png

3.4 主要结果 

8077b03029f4dcfa53c8d4f681a739ed.png

 ▲ 表格1

表格 1 显示了在 five-shot 设置下一些模型的性能。可以看出:GPT4 是整体性能最佳的模型,准确度达到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型规模最小却展现出最佳的整体性能,Baichuan-7B 仅次于 ChatGLM2。 

从学科类型的角度来看,相对于 STEM 学科,所有模型在人文学科、社会科学和其他学科中表现出更好的性能,我们认为这是由于 STEM 主题的固有难度所致。此外,虽然所有模型在中国特定类别中的表现相对较弱,略微超过其在 STEM 学科中的表现,但明显落后于其他类别。

9398099a240efff34a42ca5049458a72.png

我们将中文模型 ChatGLM 与多语模型 ChatGPT 在每个学科上进行了比较,并对学科进行了分类,并在图 3 中呈现了结果。具体的数值结果请在论文中查阅。 

从图中可以看出,模型的性能并不平衡,虽然在某些学科(如世界历史)表现出色,但在其他学科(如数学)中表现较差。我们观察到,对于 ChatGLM 和 ChatGPT 来说,古汉语和大学精算学是最具挑战性的学科,其结果接近随机。而法律与道德基础则是两个模型中最容易的学科之一。

在大多数情况下,ChatGPT 的性能明显优于 ChatGLM。比如说对于机器学习和计算机安全,ChatGPT 的准确度几乎是 ChatGLM 的两倍。然而,在中国特定类别中,ChatGLM 的性能明显接近 ChatGPT。它甚至在中国历史和高中政治中的表现超过了 ChatGPT。我们认为这是因为与 ChatGPT 相比,ChatGLM 在特别是中国特定类别中遇到了不同的数据来源。这些发现表明,为了适应具有不同语言背景的用户,找到适合的数据来源对于多语种 LLM 非常重要。

3.5 分析 

为了全面了解 LLM 在不同条件下的性能,我们探究了三个可能提升模型性能的因素和三个可能降低模型性能的因素。对于大多数分析,我们使用了前 3 个多语种模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 个中文模型:ChatGLM-6B 和 BatGPT-15B。

(具体分析细节请参看论文)

b47f120d3c8eea5146b2582fe4fb8360.png

(1)使用逐步思考的提示词: 

我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。结果呈现在表格 2 中,所有子类别的细分结果请查阅论文。 

我们发现,对于没有进行微调的模型(LLaMA 和 Falcon),使用逐步思考的提示并没有明显提高 STEM 和整体准确度。而对于进行了微调的模型(在表格 2 的第一部分),中文导向的模型(ChatGLM 和 BatGPT)的整体性能下降了约 3%,ChatGPT 的性能也略微下降了 0.2%。这些结果表明,逐步思考的提示确实有助于这些模型回答与 STEM 相关的问题。

f8143520c87bfbb0725876c149b318e4.png

(2)增加输入示例的数量:

图 4 展示了使用不同模型在不同数量少样本示例的平均准确率。明显可以看出,当提供一些示例时,大多数模型的性能有所提高。尽管随着示例数量的增加可能会出现波动,但整体趋势显示出性能的提升。然而,对于 ChatGLM 和 BLOOMZ 模型,0-shot 设置的性能优于少样本设置。我们推测这是因为这些模型已经通过预训练或微调过程广泛利用了类似的问题和答案对,已经具备了全面理解问题的能力,不需要示例的支持 [3]。 

(3)在同一模型系列中使用更大尺寸的模型:

我们使用 LLaMA 系列模型的四个不同规模进行了考察:7B、13B(训练于 1.0T tokens)、30B、65B(训练于 1.4T tokens)。这些模型的 0-shot 和 5-shot 设置的整体准确率如图 5 所示。从结果中,我们观察到随着模型规模近似翻倍,准确率稳定增加约 5 个百分点。

88183c896b0f8440fd4d66835370a139.png

是否有可能拥有 500B 参数的 LLaMA 模型可以达到与 ChatGPT 相当的性能水平?而最近的研究表明,具有更少参数但使用高质量训练数据的模型可以达到与一些更大模型(Falcon-40B 对比 LLaMA-65B)相当甚至更好的结果 [1]。如何高效地进一步提升 LLM 的性能仍然是一个未解决的问题。

5538044abb718a28e839bc24b30ce6a9.png

(4)长度较长的问题:

我们将模型的真实标签置信度(四个选项中的 softmax)视为问题难度的估计,并在图 6 中比较了 Falcon-40B 的问题难度与问题长度之间的关系。我们进行了回归分析,发现问题长度与真实标签置信度之间的相关性略微正相关。

(5)含有否定词的问题:

先前的研究指出语言模型可能在处理否定句时遇到困难 [2]。为了研究该问题在中文语境中是否存在,我们比较了不同模型在包含否定词和不包含否定词的问题子集上的性能。结果在表格 3 中展示。 

1b0e61219f22b86d66742f5f7af5985e.png

所有模型在包含否定词的问题上的表现相对较差,强调了大型语言模型的这一常见限制。有趣的是,在没有进行微调的模型上,少样本示例缓解了否定问题的性能下降。这使我们推断这些模型(LLaMA-65B 和 Falcon-40B) 在预训练过程中已经获得了相当多的知识。随后的指导性微调或通过人类反馈进行强化学习可以帮助它们有效地解决否定问题。

(6)含有子选项的问题:

在各种中文考试中,有一种典型的问题类型称为“子选项 问题”。这些问题包括一个主要陈述和多个子选项,并询问子选项的数量、顺序或选择,需要模型具备更深层的推理和推断能力(见图 7 中的示例)。表格 4 显示了评估结果。 

e53013e816a90473504269dfa136177c.png

5dccc719f9a4e73f57c76c7e38e5eb18.png

所有这些 LLM 在子选项问题上的表现较弱。ChatGPT 在子选项问题上的性能显著下降约 20%,而其他模型的下降范围在 5% 至 15% 之间。对比多语言模型和中文定向模型,子选项问题与其他问题之间的性能差距较大超过 10%,后者性能差距在 10% 以下。这也许是因为训练数据中的这种情况在中文语言中更为常见。 

6a599723cc70de81dfa00c630e601af7.png

结论 

我们介绍了 CMMLU,这是一个具有开创性意义的基准测试,旨在评估中文多任务语言理解能力。我们的实验发现揭示了现有大型语言模型中存在的改进机会。通过广泛的分析,我们确定了影响模型性能的几个因素,并提出了改进 LLM 的可行方向。我们相信我们的基准数据集和分析洞察力将使研究人员能够有效评估和设计中文 LLM。

outside_default.png

参考文献

outside_default.png

[1] E. Almazrouei, H. Alobeidli, A. Alshamsi, A. Cappelli, R. Cojocaru, M. Debbah, E. Goffinet, D. Heslow, J. Launay, Q. Malartic, B. Noune, B. Pannier, and G. Penedo. Falcon-40B: an open large language model with state-of-the-art performance. 2023.

[2] N. Kassner and H. Schütze. Negated and misprimed probes for pretrained language models: Birds can talk, but cannot fly. In D. Jurafsky, J. Chai, N. Schluter, and J. R. Tetreault, editors, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, pages 7811–7818. Association for Computational Linguistics, 2020. doi: 10.18653/ v1/2020.acl-main.698. URL https://doi.org/10.18653/v1/2020.acl-main.698. 

[3] N. Muennighoff, T. Wang, L. Sutawika, A. Roberts, S. Biderman, T. L. Scao, M. S. Bari, S. Shen, Z. X. Yong, H. Schoelkopf, X. Tang, D. Radev, A. F. Aji, K. Almubarak, S. Albanie, Z. Alyafeai, A. Webson, E. Raff, and C. Raffel. Crosslingual generalization through multitask finetuning. CoRR, abs/2211.01786, 2022. doi: 10.48550/arXiv.2211.01786. URL https://doi.org/10. 48550/arXiv.2211.01786. 

[4] L. Xu and others from SuperCLUE team. Superclue: A benchmark for foundation models in chinese. https://github.com/CLUEbench/SuperCLUE, 2023. 

[5] L. Xu, H. Hu, X. Zhang, L. Li, C. Cao, Y. Li, Y. Xu, K. Sun, D. Yu, C. Yu, Y. Tian, Q. Dong, W. Liu, B. Shi, Y. Cui, J. Li, J. Zeng, R. Wang, W. Xie, Y. Li, Y. Patterson, Z. Tian, Y. Zhang, H. Zhou, S. Liu, Z. Zhao, Q. Zhao, C. Yue, X. Zhang, Z. Yang, K. Richardson, and Z. Lan. CLUE: A chinese language understanding evaluation benchmark. In D. Scott, N. Bel, and C. Zong, editors, Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020, Barcelona, Spain (Online), December 8-13, 2020, pages 4762–4772. International Committee on Computational Linguistics, 2020. doi: 10.18653/v1/2020.coling-main.419. URL https: //doi.org/10.18653/v1/2020.coling-main.419. 

更多阅读

708d8c0c6a5992c528feda47b8e94dff.png

ca2fd5b7420245bfaaa9ff64f42cd58a.png

25487597d340bcd60a36eb3402bdd7e2.png

e2818e4c8f5d76447221a0cdd9041d29.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

ccf8aebeeb326875488ff37274c8df44.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

fe387fab63e7c65fd9c5f5e16baef073.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23407.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当 Kubernetes 遇到 GPT:利用编程模型的秘诀,让你省时省力!

❝ 本文转自 LEE 的博客,原文:https://juejin.cn/post/7215151665929912380,版权归原作者所有。欢迎投稿,投稿请添加微信好友:cloud-native-yang 事件背景 Hi Everybody!! 这次老李不讲技术了,而是讲“玄学…

01.LLaMA

文章目录 前言导读摘要 预备知识语言模型ChatGPT性能暴涨的原因(涌现)GPT-1Transformer 背景介绍模型精讲数据集及处理Common CrawlC4GithubWikipediaGutenberg and Books3ArXivStack Exchange小结 关键TrickPre-normalizationSwiGLURotary Embeddings 实…

必收藏!105页SD提示词手册;百度 Prompt 官方课程;7场 AIGC 免费线下活动;不懂代码的我,利用GPT做了一个微信小程序 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『Stable Diffusion Prompt Book』105页超详细,必收藏的AI绘画实用手册 ShowMeAI知识星球资料编号 R040 这是OpenArt 出品…

大型语言模(LLM)之提示词工程(四)

今天我学习了DeepLearning.AI的 Prompt Engineering 的在线课程,我想和大家一起分享一下该门课程的一些主要内容。以下是我写的关于该课程的前两篇博客: 大型语言模(LLM)之提示词工程(一)大型语言模(LLM)之提示词工程(二)大型语言模(LLM)之提示词工程(三…

VScode v1.75新特性

今天打开VScode看到了新版本 v1.75 的通知,我立即(一如既往地)安装了它。 简介 这个新版本中最引起我注意的是创建不同PROFILES的可能性。 现在我们可以为不同的开发场景创建配置文件,并拥有“基于工作流的不同 VScode 配置”&…

VScode配置C++(win11)以及Vscode的一些使用问题

目录 一、下载VScode(省略) 二、下载编译器 mingw 三、配置 .vscode 四、补充:配置好后,输出中文会乱码 五、文件参数讲解 六、多文件编译:修改task.json 七、中文问题 一、下载VScode(省略&#xf…

微软VSCode的常用操作和常用设置

微软的Visual Studio Code(VSCode)编辑器是因为其简洁高效,轻量级,是很多程序员的选择,如何快速上手并使用,本文将对vscode在C/C下的应用进行简单介绍。 软件下载 建议大家去官方网站按需进行下载&#x…

VScode配置task和launch支持C++11

title: VScode配置task和launch date: 2022-12-12 20:57:26 cover: categories: VisualCode tags: debug VScode配置task和launch支持C11 刚开始使用VScode一般都是使用默认的task和lunch配置去执行代码或者debug,一旦修改了相关目录或者改动一些参数,…

2023最新最全vscode插件精选

文章简介 本文介绍最新、最实用、最强大的 vscode 精选扩展。好用的扩展,犹如神兵利器,帮助程序员在代码的世界中,所向披靡,战无不胜! 作者介绍 随易出品,必属精品,只写有深度,有质…

将vscode打造为你的开发工具的首选

文章目录 前言vscode主要配置vscode的两个主要快捷键创建你的代码模版Java配置JDK和Gradle环境主要插件常见的配置launch.json配置运行测试用例常见问题常用快捷键 Python主要插件settings.json配置launch.json配置示例 Javascript/typescript常用插件settings.json样例 Golang…

20230512-VSCode-配置C++17-win11-22h2

20230512-VSCode-配置C17-win11-22h2 一、软件环境 标签:C VSCode w64devkit gcc12分栏:C操作系统:Windows11 x64 22h2编译器:vscode-1.78.2 w64devkit-1.18.0 二、操作步骤 1. 下载安装VScode 官网 打开官网【https://code…

VsCode超实用插件推荐,让你的开发效率火力全开

辅助开发类: 1. Vetur VUE开发必备插件 1.语法高亮,包括 vue/html css/sass/scss/less/stylus js/ts 2.语义高亮,除了支持template模板以外,还支持大多数主流的前端开发脚本和插件 3.语法错误检查,包括 CSS/SCSS/LE…

VScode插件推荐以及settings配置

1.[Deprecated] Bracket Pair Colorizer 2:一个可定制的扩展,用于为匹配的括号着色。 2.Ant Design Vue helper:antDesign的扩展工具(别的ui框架也有这样的插件,可以根据自己的需求下载)。 3.Auto Close …

搭建自己的聊天室平台、公司内部聊天平台,Rocket.Chat搭建及使用

一,简介 rocket.chat是一个开源的社交软件,即可以直接在web页面使用,也可以下载APP(Android,IOS,Windows,Mac OS) 主要功能:群组聊天,直接通信,私聊群,桌面…

网络内部搭建NTP服务器

医院内部很多服务器及科室客户端电脑经常出现时间不一致的状况,导致收费、挂号及检查等项目出现问题。因为现在医院都部署了银医,通过微信、支付宝等互联网应用实现挂号、收费、报告查询等。所以可以在医院内外网互联的前置机上部署一个NTP服务&#xff…

解决登录提示Access denied,You do not have access to chat.openai.com

在登录使用相关AI对话服务时,登录提示: Access denied You do not have access to chat.openai.com. The site owner may have set restrictions that prevent you from accessing the site. 原因是IP被阻挡了,参考解决: 解决访问…

报错https://chat.openai.com/ api/auth/ session 429怎么办

报错https://chat.openai.com/ api/auth/ session 429怎么办 记录一下今天遇到的bug 场景是这样的:我正常进入chatgpt的提问页面,然后一直转圈,重新登陆,清楚浏览器缓存,都不行。 文章目录 报错https://chat.openai.c…

用了cloudflare后,网站提示Sorry, you have been blocked怎么解决?

其实cloudflare还是非常智能的,但有时候为了安全起见,我们在网站后台修改参数的时候会被CF拦截,我就遇到了好几次提示Sorry, you have been blocked的情况。 遇到这种情况后,我首先找了官方的说明文档,但操作了半天好…

最新版腾讯防水墙(二代)识别

2022最新版腾讯防水墙(二代)识别 戳这里→康康你手机号在过多少网站注册过!!! 友情推荐:新一代安全短信 * 验证码地址:https://007.qq.com/online.html * 使用OpenCv模板匹配 * 成功率90%左右…

使用大型语言模(LLM)构建系统(七):评估1

今天我学习了DeepLearning.AI的 Building Systems with LLM 的在线课程,我想和大家一起分享一下该门课程的一些主要内容。之前我们已经学习了下面这些知识: 使用大型语言模(LLM)构建系统(一):分类使用大型语言模(LLM)构建系统(二):内容审核、…