衡量大模型的各个标准/数据集

1. MMLU

MMLU 是衡量LLM在预培训阶段通过零起点和少量学习获得知识的综合基准。它包含 57 个学科,涵盖了 STEM、人文、社会科学、法律和伦理学等不同领域。这些学科共同评估了LLM对众多学术和专业领域的理解的广度和深度。

2. C-EVAL

是一个综合性的中文评估套件,专门用于评估中国背景下LLM的高级知识和推理能力。与 MMLU(Hendrycks 等人,2021 年)类似,它包括 52 个学科,从人文科学到科学和工程学,分为四个难度等级:中学、高中、大学和专业

3. FLORES-200

是一个高质量的机器翻译基准,涵盖 204 种语言,是其前身 FLORES-101 (Goyal 等人,2022 年)语言覆盖范围的两倍。每种语言的每个句子都由专业译员翻译成其他语言。这一独特功能使 FLORES200 成为多对多翻译基准。因此,FLORES-200 基准特别适合评估源语言和目标语言都涉及的翻译方向。

4.CNN/Daily

是抽象多句摘要的宝贵资源。它源自 Hermann 等人(2015 年)之前创建的基于段落的问题解答数据集,使用的是 CNN 和每日邮报网站上由人类生成的新闻故事抽象摘要要点。这些摘要最初被用作带有屏蔽实体的问题,并与相应的段落配对,系统有望从中生成答案。CNN/DailyMail 是通过还原每篇报道的所有原始摘要条目而构建的,将它们视为独立的句子,以形成连贯的多句摘要。CNN/DailyMail 包含大量实例,包括 286817 个训练实例、13368 个验证实例和 11487 个测试实例。

5. XSum

是开发和评估抽象单篇文章摘要系统的基础资源。它来源于英国广播公司(BBC)的在线文章,这些文章通常包含专业撰写的介绍性句子,作为简洁的单句摘要,概括了整篇文章的精髓。XSum 涵盖的领域非常广泛,包括新闻、政治、体育、天气等。值得注意的是,与 CNN/DailyMail 相比,XSum 中的文档和摘要更短。此外,XSum 中的摘要明显更具抽象性,源文件中不存在的新颖 n-grams 所占比例很高就是证明。数据集被随机分为训练(90%)、验证(5%)和测试(5%)三个部分。

6. GSM8K

是一个包含 8,500 个高质量小学数学单词问题的数据集,旨在评估 LLM 的多步骤数学推理能力。该数据集经过精心策划,以确保高度的语言多样性。GSM8K 中包含的问题只涉及相对简单的数学概念,聪明的初中生可以通过 2 到 8 步的基本算术运算(如加、减、乘、除)来解决这些问题。

7. SNLI

是一个由人类注释的大规模句子对集合,专门用于训练和评估机器学习模型的自然语言推理(NLI)任务。SNLI 中的所有句子都是由人类撰稿人在基于图像标题的基础上下文中编写的,从而确保这些句子反映了自然语言的使用,而不是通过算法生成的。数据集中的每对句子都被标记为包含、矛盾或中性。SNLI 分成训练、开发和测试三个部分。开发和测试部分各包含 10,000 个示例。我们在评估实验中特别使用了测试部分。

8. FollowBench

是一个综合性基准,主要通过各种细粒度限制来评估 LLM 的指令遵循能力。它包括五个不同的细粒度约束:内容、情境、风格、格式和示例。该基准专门针对现有评估基准的局限性而设计,现有评估基准主要评估应答的质量,而不衡量应答是否遵守特定的指令约束。FollowBench 有英文和中文两种语言版本,我们的评估实验使用的是英文版本。

9. TruthfulQA

是一个旨在评估LLM真实性的基准。它由 817 个问题组成,涉及 38 个类别,包括健康、法律、金融和政治。这些问题经过精心设计,可以根据一些人类可能会给出的常见误解或错误信念诱导出错误答案。TruthfulQA 包含两个不同的任务,即生成任务和多项选择任务。这两项任务使用相同的问题集和参考答案,从而确保了评估的一致性。继 Zou 等人(2023 年)之后,我们在多选任务中对模型进行评估。

10. BBQ

是评估语言学硕士中存在的社会偏见程度的基准,特别是在回答问题任务方面。它从九个社会维度对受保护群体的偏见进行评估,这些社会维度与美国英语环境尤为相关。该基准包括各种问题集,其中有答案不明确的模糊语境,也有可以非常肯定地确定正确答案的歧义语境。数据集中的每个示例都由四道多项选择题组成,包括否定式和非否定式两种变体,并在有或没有消歧义语境的情况下呈现。否定式问题旨在测试反映社会偏见的刻板印象,而非否定式问题则通过评估模型的回答是否显示出对特定标签的偏见来补充这一点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36280.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI重构工程设计、施工、总承包行业:从智能优化到数字孪生的产业革命

摘要 AI正深度重构工程设计、施工与总承包行业,推动从传统经验驱动向数据智能驱动的转型。本文系统性解析AI当前在智能优化设计、施工过程管理、全生命周期数字孪生等场景的应用,展望未来AI在自动化决策、跨域协同等领域的潜力,并从投入产出…

Java高频面试之集合-15

hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶 面试官:解决哈希冲突有哪些方法? 1. 开放寻址法(Open Addressing) 核心思想:当哈…

vulhub Matrix-Breakout

1.下载靶机,打开靶机和kali虚拟机 2.查询kali和靶机ip 3.浏览器访问 访问81端口有登陆界面 4.扫描敏感目录 kali dirb 扫描 一一访问 robot.txt提示我们继续找找,可能是因为我们的字典太小了,我们换个扫描器换个字典试下,利用kali自带的最大…

docker-compose install nginx(解决fastgpt跨区域)

CORS前言 CORS(Cross-Origin Resource Sharing,跨源资源共享)是一种安全措施,它允许或拒绝来自不同源(协议、域名、端口任一不同即为不同源)的网页访问另一源中的资源。它的主要作用如下: 同源策略限制:Web 浏览器的同源策略限制了从一个源加载的文档或脚本如何与另一…

【Java】——方法的使用(从入门到进阶)

🎁个人主页:User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏:【Java】内容概括 文章目录: 1.方法的概念及使用1.1 什么是方法?1.2 方法的意义1.3 方法的定义…

STM32HAL库,解决串口UART中断接收到的第一个字节数据丢失

1.问题描述: 只有上电后第一次接收到的第一字节数据会丢失,往后再接收也不会存在问题了。 2.先贴出来重写UART中断回调函数 我在接收到第一字节数据后开启定时器中断的,做一个超时处理,每次接收到数据会对定时器计数值清零&…

Linux中安装redis

Redis的安装包,从官方下载下来的是c语言的源码包,我们需要自己编译安装。具体操作步骤如下: 安装redis 上传redis资源包 安装C语言的编译环境 gcc yum install -y gcc-c 解压redis源码在当前目录 tar -zxvf redis-6.2.4.tar.gz 进入解压目录…

基于 SSE 和 WebSocket 的在线文本实时传输工具

简介 在线文本实时传输工具支持 SSE(Server-Sent Events) 和 WebSocket,可在不同设备间快速共享和同步文本,适用于跨设备协作、远程办公和即时通讯。 核心功能 实时同步:文本输入后,另一端用户可立即看到…

【UE5 PuerTS笔记】PuerTS安装

目录 1.下载PuerTS2.下载V83.创建C项目4.拷贝puerts/unreal下的Puerts目录到您项目的Plugins目录下5.解压V8到YouProject/Plugins/Puerts/ThirdParty6.在JsEnv.build.cs中修改UseV8Version设置为你所下载的版本。7.修改CSharpParamDefaultValueMetas.cs文件增加宏定义8.取消引擎…

Baklib企业CMS元数据与协作管理优化

智能元数据驱动协作流程升级 在现代企业内容管理中,智能元数据系统已成为提升协作效率的核心引擎。通过自动化标签分类与语义分析技术,Baklib实现了文档属性的动态结构化映射,使跨部门协作中的信息检索效率提升超40%。其可视化流程编辑器支持…

从零开始实现 C++ TinyWebServer Buffer类详解

文章目录 为什么需要Buffer缓冲区?Buffer 设计Buffer 成员变量实现 ReadFD() 函数实现 WriteFD() 函数实现 MakeSpace() 函数Buffer 代码Buffer 测试 在网络编程中,Buffer(缓冲区)是一个非常重要的概念,它可以帮助我们…

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…

《线程池:Linux平台编译线程池动态库发生的死锁问题》

关于如何编译动态库可以移步《Linux:动态库动态链接与静态库静态链接》-CSDN博客 我们写的线程池代码是闭源的,未来想提供给别人使用,只需要提供so库和头文件即可。 系统默认库文件路径为: usr/lib usr/loacl/lib 系统默认头文件…

Vmware中的centos7连接上网

有很多刚刚开始配置了centos7,然后发现不能上网现在来解决这个问题。 测试能不能上网 先还原这个设置,如果没有动过的话就不用,连接模式是NAT模式 然后进去设置网络环境,记得是用超级用户设置 vi /etc/sysconfig/network-script…

Nvidia 官方CUDA课程学习笔记

之前心血来潮学习了一下Nvidia CUDA,外行,文章有理解不当的地方,望指正。 主要根据以下Nvidia官方课程学习: https://www.bilibili.com/video/BV1JJ4m1P7xW/?spm_id_from333.337.search-card.all.click&vd_sourcec256dbf86b…

Harmony 配置环境,创建,运行项目

Harmony 配置环境,创建,运行项目 1 .安装IDE 鸿蒙应用开发需要使用配套的IDE——HUAWEI DevEco Studio 获取DevEco Studio安装包,官方下载地址为:https://developer.huawei.com/consumer/cn/deveco-studio/ 解压之后双击deveco-s…

基于java的ssm+JSP+MYSQL的九宫格日志网站(含LW+PPT+源码+系统演示视频+安装说明)

系统功能 管理员功能模块: 个人中心 用户管理 日记信息管理 美食信息管理 景点信息管理 新闻推荐管理 日志展示管理 论坛管理 我的收藏管理 管理员管理 留言板管理 系统管理 用户功能模块: 个人中心 日记信息管理 美食信息管理 景点信息…

R语言软件配置(自用)

①输入R: The R Project for Statistical Computing ②点击进入Cran镜像网页,选择清华大学镜像,选择自己合适的版本下载即可(以我电脑windows为例)。 ③点击base或者install R for the first time,然后选择Download R-4.4.3 for windows&…

【数据结构】数据结构,算法 概念

0.本篇问题: 数据、数据元素、数据对象、数据项之间的基本关系?ADT是什么?数据结构的三要素?数据的逻辑结构有哪些?数据的存储结构有哪些?算法的五个特征?O(1) O(logn) O(n^n) O(n) O(n^2…

Doris单价和集群的部署

1 服务器环境准备 我们这里以3台服务器为列 1.1 硬件配置 Centos7.1及以上Ubuntu16.04及以上java1.8及以上GCC4.8.2及以上 每台服务器磁盘大小最小50G及时间相差不超或5秒 1.2 环境配置 1.2.1 修改limits.conf文件 vim /etc/security/limit.conf #在文件最后添加,*号也要添…