最全语言模型领域知识评估Benchmark——獬豸:包含了516门学科、13学科门类、240w条数据

论文链接:https://arxiv.org/abs/2306.05783
代码链接:https://github.com/MikeGu721/XiezhiBenchmark

复旦大学肖仰华团队——獬豸(Xiezhi)是一套针对语言模型(LM)的领域评估Benchmark。它由249587道多选题组成,涉及516个不同的学科和三个不同的学科粒度。学科分类和所有的一级学科如下图所示,括号内表示的是每个一级学科下二级学科的个数。

Xiezhi 评估套件覆盖了13个学科门类,118个一级学科和385个二级学科。学科的分类来源于中国教育部公布的所有学科门类。题目来源于中国的小学考试题、中考、高考、大学生考试题、考研、成人教育。

一、Benchmark介绍

Xiezhi是一个综合的、多学科的、能够自动更新的领域知识评估Benchmark。Xiezhi包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。这 516 个学科以及分类方式源自中国教育部颁布的学科分类法。作者从中国研究生入学考试中手动选择并注释了 20,000 道多选题,涵盖了这 516 个标签,以形成Xiezhi-Meta数据集。Xiezhi-Meta被用来训练一个能够计算题目和学科标签之间相关性的标注模型。作者们随后收集了来自不同考试的 150,000 个多项选择题,以及来自学术Survey的 70,000 个多项选择题,并使用标注模型对所有这些问题进行了注释。

为了方便进行实验,并能够有效地评估LLM对于跨学科知识的处理能力,作者们提出了Xiezhi-Specialty和Xiezhi-Interdiscipline,这两个数据集都提供了中英文的版本,并由 15,000 个更平衡、更不敏感、更不以中国为中心的多选题组成。 Xiezhi-Specialty 包含可以使用单一领域的知识解决的问题,而 Xiezhi-Interdiscipline 包含需要来自多个领域的知识才能解决的问题。

二、实验模型

本文覆盖的实验对象包括了45个开源模型,和2个非开源模型,所有模型的具体信息如下图所示:

                                                              表1:Xiezhi所有评估的模型

三、选项设置

所有被测试的LLM都需要从50个选项中选择最适合的答案。每道题除了正确答案外,还设置了3个易混淆的选项,另外还设置46个完全无关的选项,这些选项是从獬豸的所有题目的所有选项中随机抽取的。值得注意的是,如果研究者们希望进一步提升选项难度,可以使用WordNet、开源同义词库或其他构词方法来生成更多具有混淆性的选项。然而,作者的实验表明,虽然作者用了那么多完全无关的选项,但LLM的性能都会随着选项数量的增加而剧烈下降。考虑到作者的实验中包含了很多能力差距很大的模型,所以作者认为这一设定合理且已经达到了他们希望通过metric显著体现LLM之间的性能差距的目标。

四、衡量标准

对于评估的45个开源模型,作者利用了每个模型生成特定答案的概率来计算每个模型选择每个选项的概率,然后根据概率对所有选项进行相应的排名。因为担心被其他公司投诉,Xiezhi的制作者们只展示了两个公开认可的非开源的LLM结果:ChatGPT和GPT-4,作者们通过指令要求这俩模型对所有选项进行排序。最后,作者们使用了MRR作为衡量标准,它计算出正确答案平均会被模型排在什么位置。MRR值接近1则表示模型更有能力将正确答案放在排名的前面;而如果MRR值接近0,则模型倾向于将正确答案放在最后。

五、 实验结果

本篇论文有两个主要的实验结果。第一个是作者们为了验证他们的实验设定,以及为了充分评估目前市面上大多数的开源模型,所以把一些最近推出的知识性评估Benchmark也拿来进行了实验,实验结论如下:

表2:该表列出了所有语言模型的综合性能,所有的被测试模型都按照模型的特征进行分组,并用hline进行分割。粗体表示一组内表现最好的结果,下划线字体表示同一数据集在相同设置下所有模型中的最好结果。

除此之外,因为Xiezhi数据集覆盖了13个学科领域,除去了“军事”这个比较敏感的领域之外,他们给所有模型在所有学科领域上进行了排名,具体排名如下:

表3:在 0-shot 设置中每个类别中所有 LLM 的排名, ✓ 表示人类的表现超过了最先进的 LLM,而 ✗ 表示人类的表现已经被 LLM 所超越。

六、一些有意思的现象

Observation 1: Best Performance = Pretraining + Finetuning

观察表2中列出的总体结果,可以发现所有排名前十的开源LLM都是基于llama或bloom之上的。这表明,通过这两个基础模型是最有可能获得最优性能的,因为它们在领域文本理解方面具有巨大的潜力和卓越的性能。

此外,作者注意到,在表3中,所有总体性能排名前十的开源模型都是经过微调的模型,这意味着只有经过微调的LLM才能达到最高性能。因此,有效的预训练和微调过程都是在领域文本理解中获得最佳性能的关键因素。

Observation 2: 大多数LLM无法从演示中进行稳定的少量学习。

如表2中的 “Performance-Average”所示,就平均性能而言,few-shot learning能够增加LLM的performance。但就每个模型具体来看,每个具体的LLM的performance并没有随着few-shot样本数的增强而获得更好的表现。相反,随着学习实例数量的扩大,一些LLM的性能反而下降。相比之下,GPT-4和ChatGPT通过在few-shot learning表现出了非常稳定的性能提升。符尧之前的研究认为大模型牺牲了部分In-context Learning的能力来换取了对话能力[1],作者认为这个现象在非openAI的其他模型上尤为严重。这可以归因于GPT-4和ChatGPT所拥有的广泛的领域知识,使它们能够有效地理解嵌入在学习样本中的特征;也可能单纯地归因于OpenAI的模型的参数量大于现在市面上的开源模型。

Observation 3: 更多的LLMs参数并不一定保证更好的模型性能。

通常大家都认为,参数量越大的模型效果会越好,当比较两个参数上具有数量级差异的模型时,这个观念是对。例如,拥有1460亿个参数的Bloomz-mt明显优于拥有5.6亿个参数的Bloomz-560m。

但当两个模型的参数量并没有如此明显的差异时,上述观念则很可能不对。例如在表2中,Bloomz-7b1在大多数领域任务中超过了Bloomz-p3,而Pythia-1.4b在大多数基准中超过了参数数较大的其他所有Pythia模型。对这一现象的可能解释是,具有不同参数数量的LLM最适合于不同数量的预训练和微调数据,所以模型的最优效果很可能不是来源于参数量最大的模型[2]。

Observation 4: 小型LM增强了领域能力,而牺牲了通用能力。

在作者的实验中,他们考察了两个医学LLMs:DoctorGLM和Baize-Healthcare。DoctorGLM源于ChatGLM-6B,Baize-Healthcare源于Llama-7B,两个模型都使用医学领域文本进行了微调。尽管这两个模型与其他基于相同基础模型进行微调的LLM相比,MRR值都比较低,但它们在医疗领域都表现出了较强的性能。这表明,至少是针对较少参数量的LLMs,想要增强其在某一方面的领域能力,必然会牺牲其他方面的性能。这和符尧之前的研究结果是一致的[3]。

参考

[1] Fu Y, Peng H, Khot T. How does gpt obtain its ability? tracing emergent abilities of language models to their sources[J]. Yao Fu’s Notion, 2022.

[2]Hoffmann J, Borgeaud S, Mensch A, et al. An empirical analysis of compute-optimal large language model training[J]. Advances in Neural Information Processing Systems, 2022, 35: 30016-30030.

[3]Fu Y, Peng H, Ou L, et al. Specializing Smaller Language Models towards Multi-Step Reasoning[J]. arXiv preprint arXiv:2301.12726, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59840.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第3期大模型前沿讲习班报名中,顶尖专家面授,多角度系统培训

人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮。作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高效的学习方式&#…

ChatGPT安卓版正式发布,附安装包,但有款手机无法使用

ChatGPT安卓版如约而至,OpenAI正式宣布该应用已在谷歌应用商店上架,用户可以免费下载,对话不限次数。 但是安卓版ChatGPT目前仅在美国、印度、孟加拉国和巴西提供下载,下周将会推广至更多国家。 网页端下载链接: http…

Langchain+本地大语言模型进行数据库操作的实战代码

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

NC 财务相关问题

一、NC 银行对账查询不到单位日记账? 答:检查对账账户关联的会计科目辅助的组合在银行对账的查询期间是否有凭证,如对账账户初始化未勾选包含未记账,还需凭证记账后才可以查询出来。 二、有借款未清的人员要离职,如何…

音视频技术开发周刊 | 294

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 五问「ChatGPT医学影像」:新一代的 AI 能否成为放射科医生的一把利器? 在医学等专业性较强的领域内,ChatGPT的表现还不够好&#xff0c…

2022年最值得安装的4款PC软件,每一款都是精品

1.鲸鱼办公网 这是一个PPT模板资源网站,不仅提供了免费实用的PPT模板,还提供了简历模板、字体字库、办公教程、平面设计等,1200多个全套视频课件。对设计感兴趣的朋友可以到里面看看,说不定会有另外收获哦! 2.AirMore …

新买了台笔记本电脑,分享些实用的Windows软件

苏生不惑第263 篇原创文章,将本公众号设为星标,第一时间看最新文章。 前几天618的时候在京东新买了台联想笔记本电脑thinkbook,就是这台:当时价格5499,系统配置如图,话说Windows11都来了,有人开…

基于股票信息的数据分析与可视化

基于股票信息的数据分析与可视化 项目简介:采用皮尔逊相关系数研究A股开盘前十分钟成交量变化与当日收盘价变化的相关性,最后将数据导入到Excel中做可视化分析。 结论:大部分都没有很强的相关性。 import baostock as bs import pandas as p…

「太阁干货」华为模拟器eNSP安装教程

最近小伙伴们在观看太阁6IE讲师 闫辉老师的直播课中,会使用到华为模拟器eNSP,今天给大家分享一下如何对华为eNSP模拟器进行初始化安装。 今天分享的内容主要有以下几个板块: step 1:文件下载: 所需要的文件如下 一共需要5个文件…

网络链路不稳定的排查问题方法

概述 当客户端访问目标服务器出现ping丢包或ping不通时,可以通过tracert或mtr等工具进行链路测试来判断问题根源。本文介绍如何通过工具进行链路测试和分析。 详细信息 本文分别介绍如下链路测试方法。 链路测试工具测试结果的简要分析常见的链路异常场景链路测试…

计算机网络波动大,网络不稳定是什么原因?

当我们的电脑网络不稳定,网络波动大,网络卡顿不顺畅时,我们应该怎么办呢?今天就和大家一起聊聊网络不稳定是什么原因,我们可以怎么解决! 一、设备问题引发网速不稳定现象 1.【网线故障问题】由于网线水晶头…

pdf打开口令破解

PDF文件设置打开口令,有可能是自己设置的打开密码时间久了忘记了,也有可能是在网上下载的pdf资源打开的时候需要输入打开密码,那么遇到这种不知道破地方打开口令或者忘记打开口令的情况,并且文件内容对你很重要的话,可…

【口令破解】远程口令破解和本地口令破解(crunch 字典工具和hydra工具)

目录 1 口令安全威胁1.1 口令安全概述1.2 口令安全现状1.2.1 弱口令1.2.2 默认口令1.2.3 明文传输 2 口令破解2.1 暴力破解2.2 字典破解2.2.1 弱口令字典2.2.2 社工字典2.2.3 字符集字典crunch的**用法**如下:crunch生成密码字典实例:简单介绍字典 3 远程…

弱口令及其防御

常见的弱口令分为默认型弱口令和社工型弱口令。 一.默认型弱口令 1.系统服务弱口令 sshftptelnetsnmp 2.应用组件弱口令 tomcatweblogicredismysqlmongoDBrsyncmemcache 3.设备弱口令 (1)路由器弱口令 tp-linkTendaD-linkMERCURY (2)安全设备弱口令 绿盟(weboper/nsfoc…

弱口令扫描工具mysql ftp_超级弱口令检查工具

超级弱口令检查工具是一款Windows平台的弱口令审计工具,支持批量多线程检查,可快速发现弱密码、弱口令账号,密码支持和用户名结合进行检查,大大提高成功率,支持自定义服务端口和字典。 介绍 工具采用C#开发&#xff0c…

万能命令

在日常工作生活中下载文档资料、网上购物、看电影追剧,早已成为生活的中的一部分,在面对这些生活工作必要内容你是是怎么办的呢?还在花钱下载文档?追剧开会员吗?今天就教你无需任何工具,只需要几个简单的命…

9月1日5G商用,你的4G变慢了吗?

近日,据运营商财经网报道,相关人士透露,三大运营商即将于9月1日对5G商用,也就是一个星期之后,中国正式进入5G时代。 这与6月5G牌照发放时三大运营商表示将在今年9月底前在40城提供5G服务的计划一致。 此外,…

项立刚:乔布斯展现了人类无尽的创造力

北京时间10月6日消息&#xff0c;苹果董事会、联合创始人史蒂夫乔布斯周三辞世&#xff0c;享年56岁。乔布斯的辞世&#xff0c;引起了IT界名人的关注。 知名电信专家、飞象网创始人<!--keyword--><!--/keyword-->项立刚<!--keyword-->(微博)<!--/keywor…

有了5G,Wi-Fi还有用武之地吗?

没有Wi-Fi的日子&#xff0c;总是让我们如坐针毡。有人甚至调侃道&#xff0c;在马斯洛需求层次理论中&#xff0c;Wi-Fi已成为新衍生出来的底层需求。 不久前&#xff0c;国际Wi-Fi联盟组织&#xff08;以下简称Wi-Fi联盟&#xff09;表示&#xff0c;他们将在今年第3季度推出…

赠书活动 | 万亿级市场:大家都能看到的机会谈不上机会

5G时代已经来了&#xff0c;在5G引领下的数字产业互联网&#xff0c;将带来万亿级市场。如果说中国的消费互联网市场只能容纳几家千亿美元级的企业&#xff0c;那么产业互联网领域有可能容纳几十家、几百家同等规模的创新企业。 那么&#xff0c;5G能做什么、自己用5G又能做什么…