清华发布 KoLA 评测集,分4个认知层级评测LLM,GPT-4竟不是第一?

作者 | Python

预训练语言模型(PLM)刷GLUE,SuperGLUE,甚是常见;那ChatGPT等大语言模型(LLM)刷什么榜呢?现在常用的榜单,例如MMLU评测了57个学科知识,Big-Bench评测204个推理任务。而这次,清华大学提出KoLA评测基准,从掌握和利用世界知识的角度,衡量大语言模型的表现。

KoLA基于19个关注实体、概念和事件的任务。参考了Bloom认知体系,KoLA从知识的记忆、理解、应用和创造4个层级,从深度而非广度去衡量大语言模型处理世界知识的能力。实验结果表明,GPT-4虽然很强,但依然未能霸榜,在知识创造层次的测试中仅排第三名。那究竟是怎么一回事儿呢?让我们来看看吧。

论文题目:
KoLA: Carefully Benchmarking World Knowledge of Large Language Models
论文链接:
https://arxiv.org/pdf/2306.09296.pdf
评测榜单:
https://kola.xlore.cn

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!

KoLA评测

KoLA的评测任务如下图所示。整体而言,根据知识的认知层级,分成知识记忆(KM),知识理解(KU),知识应用(KA),知识创造(KC)四个层级。

知识记忆

知识记忆主要是之前的knowledge probing任务,包括:

  • 1-1/2 High/Low-Freq:Wikidata5M中选取三元组,用谓词模板转化为句子,让大模型预测客体(尾实体)。其中尾实体是从2000个最高频实体中选出(1-1),或选择低频实体(1-2)。

  • 1-3 ETM(表格里笔误):从新语料中选取理论上之前没有出现过的三元组,做类似的客体预测。

知识理解

知识记忆主要是之前的信息抽取任务,包括:

  • 2-1/2/3 COPEN-CSJ/CPJ/CiC:采用COPEN数据集,要求大模型选择与给定概念最相似的感念,判断概念属性相关断言的正误,选择合适的概念补全上下文。

  • 2-4 FewNERD:小样本实体识别数据集

  • 2-5 DocRED:文档级关系抽取数据集(未公开的测试集)

  • 2-6/7 MAVEN/MAVEN-ERE:事件检测、事件关系抽取数据集(未公开的测试集)

  • 2-8 ETU:从新语料中,类似DocRED,构建文档级关系抽取

知识应用

知识应用旨在考察模型利用知识解决特定的推理任务的能力。这里更关注事实推理,而非之前工作关注的数学推理等。包括:

  • 3-1 HotpotQA:多跳抽取式问答数据集

  • 3-2 2WikiMultihopQA:类似的多跳问答,问题通过模板构建,确保不能被单跳解答,但却不够自然。

  • 3-3 MuSiQue:类似的多跳问答,避免了推理捷径和模板构建的问题。

  • 3-4 KQA Pro:类似的多跳问答,包含了更复杂的逻辑推理。

  • 3-5 KoRC:需要文档联合知识库进行推理,涉及隐式推理能力。

  • 3-6 ETA:从新语料中,类似KoRC构建问答数据。

知识创造

知识创造旨在考察模型利用现有的知识合理推断和创造知识的能力,通过生成内容的连贯性和正确性来考察。包括:

  • 4-1/4-2 Encyclopedia/ETC:根据史料、新闻和科幻小说续写后续可能发生的事件。4-1基于维基百科,4-2基于新语料。

为了更客观地自动评价知识创造,本文提出了一种新的基于对比的方法。具体而言,记大模型生成的为,人工标注的为,人工从R中抽取的知识部分为,大模型基于K和原始输入生成的为,评价结果为三组相似度的均值:。相比直接对比,另外两项将创造知识与生成文本分开测量,更精细。

赛季制+新旧语料组合

为确保公平,KoLA采用赛季制,一个季度为一个赛季。任务的语料分为历史语料(Known,来自维基百科,选用Wikidata5M)和创建90天内的新语料(Enolving,第一赛季来自新闻和科幻小说)。

因为大语言模型经常通过记忆来作弊(参见只给大模型LeetCode编号,也能解题!),并且大模型的测试效果对测试集与训练集语料的来源时间较为敏感(参见谷歌训了28个15亿参数模型,说明数据对大模型训练的影响)。而这里所采用的维基百科语料是几乎所有大模型都会拿来训练的,而考虑到模型训练所需的时间,90天内的语料几乎不可能被大模型拿来训练。因此,这两类语料可以分别考察大模型对已知语料的处理能力和对新语料的泛化能力。

标准化分数

考虑到不同的数据集敏感度不同,对分数先计算标准化得分。(编者按:比如之前刷GLUE时有些少监督数据集非常敏感,动不动就是十几个百分点的差别。)类似我们考四六级,针对每个数据集,将所有测试的模型表现调整为标准正态分布,并将所有分数线性缩放到0~100的区间。

实验结果

实验对比了21个模型,包括13个开源模型,与8个只提供API的模型,例如CHatGPT。在在知识记忆与理解层级上的实验结果如下图表示:

可以看到,开源的模型的能力一般相较GPT-4等模型而言要明显差一些,这在知识应用与创造层级上也能观察到。然而,GPT-4即使在这两个层级上的表现都取得了第一,小分也并未霸榜。在标黄的分数上,GPT-4依然技不如人。甚至,在下图中,GPT-4在知识创造层级上的平均表现仅排第三,落后于GPT-3.5与InstructGPT。

其它结论:

  • 对于没有Instruction Tuning的模型(如GPT-J and BLOOM),知识记忆(KM)的能力与模型规模之间有强相关性(斯皮尔曼系数0.79)。

  • Instruction Tuning 对大模型的高级能力提升更明显。比如知识应用(KA),斯皮尔曼系数小/大模型分别是0.02,0.53。

  • 但在低级能力上,经过Instruction Tuning,模型表现与规模之间的相关性反而下降了,观察到了智商税。例如知识记忆(KM)的斯皮尔曼系数降到0.34。

  • 相同层级的任务间相关性较高,说明层级设置合理。

  • 知识记忆(KM)与后续任务表现相关性较高(例如2-1~2-3,3-1~3-5),显示高层级能力依赖知识记忆。

  • 新兴语料上的表现与旧语料上,模型表现具有明显的相关性,体现出模型在利用相似的能力完成任务。

  • 高层级任务上,新旧语料模型的表现差要比低层级任务更小。说明低层级任务模型可以通过记忆来取得更好的成绩,但在更难的任务上主要还是需要能力的运用。

结束语

清华大学的KoLA将大模型的评价与认知层级联系起来,为大模型研究提供了新的思路。虽然GPT-4并未成功霸榜所有小分,但以GPT-4为代表的不开源模型在评价中还占有很明显的优势。我们普通研究者还需要联合起来,踔厉奋发,砥砺前行,共同推动开源社区的发展,才可能打破OpenAI等大公司的技术垄断。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57365.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

屏幕挂灯是不是智商税?明基ScreenBar Halo屏幕挂灯初体验

目录 一、屏幕挂灯是不是智商税?二、文心一言眼里的屏幕挂灯1、明基ScreenBar Halo屏幕挂灯2、屏幕挂灯和普通台灯哪个好? 三、屏幕挂灯初体验四、使用体验五、无线控制器六、专业角度分析1、屏幕工作照明,不是随便一盏灯就可以2、引导光线照…

微软小冰发布社交APP“小冰岛”:不是元宇宙,是虚拟版微信

元宇宙是一个空间的概念,小冰岛更像是“灵魂”,是一场人类和AI融合的探索。 从微软拆分的一年后,9月22日,在小冰第九代发布会上,小冰公司发布了首个社交平台APP“小冰岛”。 和传统的社交平台不太相同的是&#xff0c…

刷题算法总结

一、数据结构的存储方式 数据结构的存储方式只有两种:数组(顺序存储)和链表(链式存储)。 二、数据结构的基本操作 对于任何数据结构,其基本操作:增删查改。 各种数据结构的遍历 访问无非两种…

【回答问题】ChatGPT上线了!推荐40个以上比较好的目标检测模型

推荐40个以上比较好的目标检测模型? 目标检测是指在图像中找到并标识出特定目标的计算机视觉任务。近年来,机器学习技术的发展使得目标检测取得了长足进步。目前有许多优秀的目标检测模型,下面是推荐的40个以上的比较好的目标检测模型: R-CNN (Regions with CNN features…

足球推荐预测

彼得堡联 - 雷丁 我看好让负,看好大家私,两队在前段时间都是很少有胜绩,竞技状态都比较低迷,而且前不久遇到了同一支球队考文垂,战绩都不漂亮,两队实力相差程度不大,所以让负几率大一些

世预赛乌拉圭VS哥伦比亚最新赛事解析:客场保平属性强怎么下单

乌拉圭VS哥伦比亚南美预选赛临场交流:苏亚雷斯或可出场瓦尔韦德身陷囹吾,萨帕塔来袭乌拉圭能否首回合取胜!10月开门红,英锦赛吉灵汉姆负加米尔顿让平和林肯城负全部拿捏,希望跟上的朋友能够点个赞支持一下,同时相信失利…

搜球半,看免费足球分析,6月29日今日竞彩三连推荐

日职联:大阪钢巴 VS 广岛三箭 周三001 06-29 18:00 大阪钢巴执教更换为上赛季带领大分三神打进天皇杯决赛的片野坂知宏,此前他带领大分三神从日职乙升级, 球队本赛季表现非常不理想,过去17轮比赛只拿到了4场胜局,球队方…

支持电竞比分实时查询的软件~和比分网之间的对比

其实我是搞脚本开发的~~~~对于电竞方面的了解还较少,但是今天我们要为大家带来一个另类的话题,那就是“电竞比分”、“战绩查询”,之前在此博客更新的都是脚本开发之类的,电竞类的还真没发表过,最近想开发一款此类的电…

Meta欲关闭Echo VR,游戏引擎大神卡马克发长文批判!

"即使只有一万个活跃用户,如果可能的话,也应该避免破坏这种用户价值。" 整理 | 邓晓娟 责编 | 梦依丹 出品 | CSDN(ID:CSDNnews) 上周,Meta 正式宣布将于今年 8 月初关闭零重力射击 VR 射击…

【编程语言】Scala 函数式编程

函数是Scala 中的一等公民。 本文讨论Scala函数式编程的一些基本原理。你将会学到如何使用高阶函数,以及重用已有代码时,遵守 DRY 原则。 Scala 的集合库很棒 # So what does the above buy you anyway? The following are some examples from Scala’s…

电量使用情况android系统,使用 Battery Historian 分析耗电情况

您可以通过 Battery Historian 工具了解设备随时间的耗电情况。在系统级别,该工具以 HTML 的形式可视化来自系统日志的电源相关事件。在具体应用级别,该工具可提供各种数据,帮助您识别耗电的应用行为。 本文档介绍了使用 Battery Historian 了…

android app耗电分析方法

这是一篇讲述应用耗电的文章,围绕 Android 电量采集机制及第二代 Battery Historian 分析工具讲述。文从数据采集、导出、环境搭建、解读报告的角度出发,从细节讲解整个流程。和大谈概念的文章不同,这里将进行实际操作及分析。 写作动机来源…

Android App 耗电的测试方法

这是一篇讲述应用耗电的文章,围绕 Android 电量采集机制及第二代Battery Historian分析工具讲述。文从数据采集、导出、环境搭建、解读报告的角度出发,从细节讲解整个流程。和大谈概念的文章不同,这里将进行实际操作及分析。 电量统计模块概…

一种Android应用耗电定位方案

背景 通常来说,app耗电相比于其他的性能问题(Crash,Anr)等,会受到比较少的关注,耗电通常是一个app隐藏的性能问题,同时又由于手机性能不同,使用时长不同,使用习惯不同&a…

如何降低android应用程序的耗电量

转自:http://www.apkbus.com/forum.php?modviewthread&tid5459&extrapage%3D3 如果手机(移动设备)没电了,你的程序还能运行吗? 哈哈,这是地球人都知道的问题,那么如何才能降低androi…

IOS耗电量测试(一)耗电量数据获取

转载:https://blog.csdn.net/redcard0/article/details/89030124 随着游戏越来越重度,游戏耗电太高造成游戏发烫的投诉量已经仅次于帧率,高于针对内存崩溃的投诉。优化的前提是耗电量数据可以度量,本文主要阐述耗电量数据如何获取…

APP专项测试之耗电量测试

一、耗电量测试分析 相对于PC端来说,移动设备的电池电量是非常有限的,保持持久的续航能力尤为重要。Android的很多特性都比较耗电(如屏幕、GPS、sensor传感器、唤醒机制、CPU、连网等的使用),我们必须要慎重检查APP的…

如何测试Android APP的耗电量?

现在可以使用google提供的battery-historian来测试,适用条件:5.0及以上手机。 battery-historian链接:google/battery-historian android吧 所以的android都自带的功能 设置--->电池/电源管理/ MQC在兼容性测试、功能测试、稳定性测试中都…

app耗电量测试

目录 目录 1. 引言 2. 测试方法 2.1. 直接观察 2.2. 使用adb命令进行统计 3. 典型的耗电场景 3.1. 定位 3.2. 网络传输 3.3. 音视频播放 4. app电量分析工具 4.1. Batterystats 4.2. Battery Historian 5. 环境安装 5.1. adb命令 5.2. 安装go 5.3. 安装git 5.4…

盘点COVID-19新冠药物和疫苗研发进展

COVID-19是由严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2)引起的一种传染病,这是一种单股正链RNAβ冠状病毒,它是Beta-CoV谱系B( Sarbecovirus亚属)。 COVID-19代表着全球健康威胁,并且是可能引…