The Llama 3 Herd of Models 第5部分,结果部分全文

第1-3部分

第4部分

5 Results

        我们对Llama 3进行了一系列广泛的评估,调查了:(1)预训练语言模型的性能,(2)后训练语言模型的性能,以及(3)Llama 3的安全特性。我们在下面单独的小节中提出这些评估的结果。

5.1 Pre-trained Language Model 预训练语言模型

        在本节中,我们报告了预训练的Llama 3(第3节)的评估结果,并与其他各种规模相当的模型进行了比较。只要有可能,我们就复制竞争对手模型的结果。对于非llama模型,我们在公开报告的结果或(在可能的情况下)我们自己复制的结果中报告最佳分数。这些评估的细节,包括配置,如射击次数,指标,和其他相关的超参数和设置,可以在这里访问我们的Github存储库。

        此外,我们正在发布作为评估的一部分的数据,这些数据可以在Huggingface上找到。我们在标准基准(第5.1.1节)、多项选择题设置变化的稳健性(第5.1.2节)和对抗性评估(第5.1.3节)上评估模型的质量。我们还进行了污染分析,以估计我们的评估受到培训数据污染的影响程度(第5.1.4节)。

5.1.1 Standard Benchmarks 基准

        为了将我们的模型与当前最先进的模型进行比较,我们对Llama 3进行了大量标准基准评估,如表8所示。这些评估包括八个顶级类别:(1)常识性推理;(2)知识;(3)阅读理解;(4)数学、推理和解决问题的能力;(5)长语境;(6)代码;(7)对抗性评价;(8)综合评价。

        实验设置。对于每个基准,我们计算Llama 3以及各种其他可比较大小的预训练模型的分数。在可能的情况下,我们用自己的管道为其他模型重新计算数字。为了确保公平的比较,我们然后在我们计算的分数和具有可比或更保守设置的模型的报告数字之间选择最佳分数。您可以在这里找到有关我们评估设置的更多详细信息。对于某些模型,不可能(重新)计算基准值,例如,因为没有释放预训练的模型,或者因为API没有提供对对数概率的访问。特别是,对于所有与Llama 3 405b相当的模型都是如此。因此,我们不报告Llama 3 405b的类别平均值,因为它要求所有的数字都可用于所有基准测试。

        显著值。在计算基准分数时,有几个方差来源会导致模型在基准上的性能估计不精确,例如少样本、随机种子和批大小。这使得理解一个模型是否在统计上明显优于另一个模型变得具有挑战性。出于这个原因,我们报告了我们的分数以及来自基准数据选择的方差的95%置信区间(ci)。我们使用公式(Madaan et al ., 2024b)分析计算95% ci:

         其中S为首选基准分数,N为基准的样本量。我们注意到,因为基准数据中的方差不是方差的唯一来源,所以这些95% ci是能力估计中实际方差的下界。对于非简单平均值的度量,ci被省略。

        8B和70B模型的结果。图12报告了Llama 38b和70B在常识性推理、知识、阅读理解、数学和推理以及代码基准测试方面的平均性能。结果显示,Llama 38b几乎在每个类别中都优于竞争机型,无论是在每个类别的胜率方面,还是在每个类别的平均性能方面。我们还发现,在大多数基准测试中,除了可能饱和的常识性基准测试外,Llama 370b的性能大大优于其前身Llama 270b。Llama 370b也优于Mixtral 8x22B。

        所有模型的详细结果。表9、10、11、12、13和14给出了预训练的Llama 38b、70B和405B模型在阅读理解任务、编码任务、常识理解任务、数学推理任务和一般任务上的基准性能。表格比较了《羊驼3》的表现尺寸相近的模型。结果表明,Llama 3405b与同类车型相比具有较强的竞争力。特别是,Llama 3405b大大优于以前的开源模型。对于长期上下文,我们在5.2节中给出了更全面的结果(包括像大海捞针一样的探测任务)。

5.1.2 Model Robustness 鲁棒性

        除了基准性能之外,鲁棒性是预训练语言模型质量的重要因素。我们研究了我们的预训练语言模型在多选题(MCQ)设置中设计选择的鲁棒性。先前的研究报告称,在这种设置中,模型性能可能对看似任意的设计选择很敏感,例如,模型分数甚至排名可能会随着上下文示例的顺序和标签而改变(Lu et al, 2022;赵等,2021;罗宾逊和温盖特,2023年;Liang等,2022;Gupta等人,2024),提示符的确切格式(Weber等人,2023b;Mishra et al, 2022),或者答案选择的格式和顺序(Alzahrani et al, 2024;Wang et al ., 2024a;郑等,2023)。在这项工作的激励下,我们使用MMLU基准来评估我们预训练模型的鲁棒性:(1)少镜头标签偏差,(2)标签变量,(3)回答顺序,(4)提示格式。

                •少量标签偏见。继Zheng等人(2023)和Weber等人(2023a)之后,我们在四镜头示例中研究了标签分布的影响。具体来说,我们考虑以下设置:(1)所有少数例子有相同的标签(A A A A);(2)所有例子都有不同的标签(a B C D);(3)只有两个标签(A A B B和C C D D)。

                •标签变体。我们还研究了模型对不同选择令牌集的响应。我们考虑Alzahrani等人(2024)提出的两个集合:即一组与公共语言无关的标记($ & # @)和一组没有任何隐式相对顺序的稀有标记(“§з”ü)。我们还考虑了两个版本的规范标签(A) B、C、D和A) B、C、D)和一个数字列表(1)。2. 3. 4)。

                •回答问题。根据Wang等人(2024a),我们计算了结果在不同回答顺序上的稳定性。为了计算这个,我们根据一个固定的排列重新映射数据集中的所有答案。例如,对于排列A B C D,所有标签为A和B的答案选项都保留标签,所有标签为C的答案选项都获得标签D,反之亦然。

                •提示格式。我们评估了五个任务提示的性能差异,这些提示所提供的信息水平不同:一个提示只是要求模型回答问题,而其他提示则断言模型的专业知识或应该选择最佳答案。

 

 

         图13展示了我们研究模型性能对标签变体(左)和少射标签偏差(右)的鲁棒性的实验结果。结果表明,我们的预训练语言模型对MCQ标签的变化和少量提示标签的结构具有很强的鲁棒性。这种稳健性对于405B参数模型的发音。图14展示了我们对回答顺序和提示格式的稳健性的研究结果。图中的结果进一步强调了我们预训练语言模型,特别是Llama 3 405b的性能的稳健性。

5.1.3 Adversarial Benchmarks 对抗性基准

        除了上面提到的基准测试之外,我们还在三个方面评估了几个对抗性的基准测试:问题回答、数学推理和释义检测。该测试考察了模型在特别创建的具有挑战性的任务上的能力,并且可能还指向基准上的过拟合。对于问答,我们使用对抗性SQuAD (Jia and Liang, 2017)和动态SQuAD (Kiela et al, 2021)。对于数学推理,我们使用GSM-Plus (Li et al, 2024c)。对于释义检测,我们使用PAWS (Zhang et al ., 2019)。

        图15显示了Llama 3 8b、70B和405B在对抗性基准测试上的分数,作为它们在非对抗性基准测试上表现的函数。我们使用的非对抗性基准是用于问答的SQuAD (Rajpurkar等人,2016),用于数学推理的GSM8K,以及用于意译检测的QQP (Wang等人,2017)。每个数据点代表一对对抗性和非对抗性数据集(例如:QQP与PAWS配对),我们在一个类别中显示所有可能的配对。对角线黑线表示对抗性和非对抗性数据集之间的奇偶性-在这条线上将表明模型具有相似的性能,而不管对抗性的性质。

        在意译检测上,预训练和后训练的模型似乎都没有受到构建PAWS的对抗性的影响,这标志着相对于上一代模型迈出了实质性的一步。这一结果证实了Weber等人(2023a)的发现,他们还发现llm不太容易受到在几个对抗性数据集中发现的虚假相关性的影响。然而,对于数学推理和问题回答,对抗的表现明显低于非对抗的表现。此模式与预训练模型和后训练模型相似。

5.1.4 Contamination Analysis 污染分析

        我们进行了污染分析,以估计基准分数可能受到预训练语料库中评估数据污染的影响程度。在以前的工作中,使用了几种不同的污染方法,具有各种不同的超参数-我们参考Singh等人(2024)作为概述。这些方法中的任何一种都可能出现假阳性和假阴性,而如何最好地进行污染分析目前仍是一个开放的研究领域。在这里,我们主要遵循Singh等人(2024)的建议。

        方法。具体来说,Singh等人(2024)建议根据经验选择污染检测方法,根据哪种方法导致数据集的“干净”部分与整个数据集之间的最大差异,他们称之为估计性能增益。对于我们所有的评估数据集,我们基于8克重叠对示例进行评分,这是Singh等人(2024)发现的一种方法,对许多数据集都是准确的。我们认为数据集D的一个例子被污染,如果其标记的比率TD是在预训练语料库中至少出现一次的8克的一部分。我们分别为每个数据集选择TD,根据该值显示三种模型尺寸中最大的显著估计性能增益。

        结果。在表15中ÿ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/386862.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

逻辑回归推导

逻辑回归既可以看作是回归算法,也可以看做是分类算法。通常作为分类算法使用,只可以解决二分类问题。 在上述平面中,每个颜色代表一个类别,即有4个类别 将红色的做为一个类别,其他三个类别都统称为其他类别&#xff0…

C#初级——枚举

枚举 枚举是一组命名整型常量。 enum 枚举名字 { 常量1, 常量2, …… 常量n }; 枚举的常量是由 , 分隔的列表。并且,在这个整型常量列表中,通常默认第一位枚举符号的值为0,此后的枚举符号的值都比前一位大1。 在将枚举赋值给 int 类型的…

完成stable将图片转换为二维码

1.创建虚拟环境 conda create -n stable python=3.10.6 2.克隆项目 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui 或者 git clone https://kgithub.com/AUTOMATIC1111/stable-diffusion-webui 3.安装依赖(-i https://pypi.tuna.tsinghua.edu.cn/s…

大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

抓包工具——wireshark的使用

​ 什么是wireshark wireshark是一个数据包捕捉程序。和linux下的tcpdump,以及sniffer,Fidder等软件功能类似。按理说,我们的计算机中的网卡设备只会将发给本机的数据包传输到上层进行解析,而其他的数据包会进行丢弃,…

纯原创【车牌识别】基于图像处理的车牌识别——matlab项目实战(含GUI界面)详解

摘要 车牌识别系统乃计算机视觉与模式识别技术于智能交通领域的重要研究课题之一。其作用在于从复杂背景里提取运动中的汽车牌照,进而识别出车牌号码。车牌识别技术在高速公路电子收费、日常停车场管理以及交通违章监控等场景得到广泛运用。它的问世对于维护交通安全…

MongoDB 基础知识

一、为什么学习MongoDB MongoDB解决Mysql 的“三高”问题: 1.对数据库高并发写入需求 2.对海量数据高效率存储访问需求 3.对数据库高扩展和高可用的需求 MongoDB 实际应用: 1.社交场景,比如朋友圈,附近的人的地点的存储 2.…

【JAVA开发笔记】Reids下载、安装、配置-Windows篇(超详细,含Redis可视化管理工具!!!)

目录 1. Redis 简介 2. 下载 Redis 安装包 3. 开启 Redis 服务 4. 配置环境变量 5. Redis 服务注册为系统服务 6. Redis 服务测试和简单使用 7. 下载安装 Redis 管理工具 8. 管理工具连接 Redis 服务器 1. Redis 简介 Redis(Remote Dictionary Server&…

SpringBoot 整合 Redis 实现验证码登录功能

一、整合Redis 在pom.xml中添加Redis相关依赖&#xff1b; <!--Spring Data Redis依赖配置--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency>…

永结无间Ⅵ--第一支AI测试团队

我们都梦想拥有一支 AI 测试团队。每个工程团队都应该测试他们的应用程序&#xff0c;但测试速度慢、成本高&#xff0c;而且很少能提供足够的覆盖范围。大多数团队几乎没有测试。专门的测试人员或供应商往往会忽略测试的许多方面。测试人员希望专注于测试中有趣且重要的方面&a…

WPF的MVVM架构:如何通过数据绑定简化UI逻辑

WPF的MVVM架构&#xff1a;如何通过数据绑定简化UI逻辑 目录 MVVM模式概述数据绑定在MVVM中的作用实现MVVM模式的步骤MVVM模式中的常见问题与解决方案实践示例总结 MVVM模式概述 MVVM&#xff08;Model-View-ViewModel&#xff09;是一种设计模式&#xff0c;用于WPF应用程序…

Navidrome音乐服务器 + 音流APP = 释放你的手机空间

20240727 By wdhuag 目录 前言&#xff1a; 参考&#xff1a; Navidrome音乐服务器 Demo试用&#xff1a; 支持多平台&#xff1a; 下载&#xff1a; 修改配置&#xff1a; 设置用NSSM成服务启动&#xff1a; 服务器本地访问网址&#xff1a; 音流 歌词封面API&am…

HTML+CSS+JavaScript实现烟花绽放的效果源码

源码 复制粘贴代码 在同级别下放一张图片fire.png接可以了 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><…

2024年7月23日~2024年7月29日周报

目录 一、前言 二、完成情况 2.1 一种具有边缘增强特点的医学图像分割网络 2.2 融合边缘增强注意力机制和 U-Net 网络的医学图像分割 2.3 遇到的困难 三、下周计划 一、前言 上周参加了一些师兄师姐的论文讨论会议&#xff0c;并完成了初稿。 本周继续修改论文&#xff0…

【Qt】QLCDNumberQProgressBarQCalendarWidget

目录 QLCDNumber 倒计时小程序 相关属性 QProgressBar 进度条小程序 相关设置 QLCDNumber QLCDNumber是Qt框架中用于显示数字或计数值的小部件。通常用于显示整数值&#xff0c;例如时钟、计时器、计数器等 常用属性 属性说明intValueQLCDNumber显示的初始值(int类型)va…

Hbase简介和快速入门

一 Hbase简介 1 HBase定义 Apache HBase™ 是以hdfs为数据存储的&#xff0c;一种分布式、可扩展的NoSQL数据库。 2 HBase数据模型 HBase的设计理念依据Google的BigTable论文&#xff0c;论文中对于数据模型的首句介绍。Bigtable 是一个稀疏的、分布式的、持久的多维排序map…

【JAVA学习笔记】找不到依赖项 ‘org.springframework.boot:spring-boot-starter-web:3.0.5‘

如果环境都是跟着教程配的话&#xff0c;并且上网搜了一圈询问gpt都没发现对应长得像的错误&#xff0c;那么试试刷新一下Maven项目&#xff0c;可能问题就自己解决了。如果这样解决不了再查到底是什么地方没有配置对。 &#xff08;我第一次遇到这个问题的时候搜了半天都不知…

【ROS 最简单教程 002/300】ROS 集成开发环境安装 (虚拟机版): Noetic

&#x1f497; 有遇到安装问题可以留言呀 ~ 当时踩了挺多坑&#xff0c;能帮忙解决的我会尽力 &#xff01; 1. 安装操作系统环境 Linux ❄️ VM / VirtualBox Ubuntu20.04 &#x1f449; 保姆级图文安装教程指路&#xff0c;有经验的话 可以用如下资源自行安装 ITEMREFERENCE…

【Windows】Mountain Duck(FTP服务器管理工具)软件介绍

软件介绍 Mountain Duck是一款基于Cyberduck开发的应用程序&#xff0c;它允许用户通过FTP、SFTP、WebDAV、S3和OpenStack Swift等协议连接到云存储和远程服务器&#xff0c;并在本地文件浏览器中以熟悉的方式访问和管理这些文件。 功能特点 支持多种协议: Mountain Duck支持…

Unity和WebGL交互-2024/7/30

进入项目 1 新建一个.jslib的文件 2 放到项目内Plugins文件夹下 3 可以用vscode之类的编译器打开这个文件 编写内容 mergeInto(LibraryManager.library, {// 方法名必须和c#中的相同// 有参数 需要用UTF8ToString&#xff08;&#xff09;OnInitSDK:function(str) {window.OnIn…