第1-3部分
第4部分
5 Results
我们对Llama 3进行了一系列广泛的评估,调查了:(1)预训练语言模型的性能,(2)后训练语言模型的性能,以及(3)Llama 3的安全特性。我们在下面单独的小节中提出这些评估的结果。
5.1 Pre-trained Language Model 预训练语言模型
在本节中,我们报告了预训练的Llama 3(第3节)的评估结果,并与其他各种规模相当的模型进行了比较。只要有可能,我们就复制竞争对手模型的结果。对于非llama模型,我们在公开报告的结果或(在可能的情况下)我们自己复制的结果中报告最佳分数。这些评估的细节,包括配置,如射击次数,指标,和其他相关的超参数和设置,可以在这里访问我们的Github存储库。
此外,我们正在发布作为评估的一部分的数据,这些数据可以在Huggingface上找到。我们在标准基准(第5.1.1节)、多项选择题设置变化的稳健性(第5.1.2节)和对抗性评估(第5.1.3节)上评估模型的质量。我们还进行了污染分析,以估计我们的评估受到培训数据污染的影响程度(第5.1.4节)。
5.1.1 Standard Benchmarks 基准
为了将我们的模型与当前最先进的模型进行比较,我们对Llama 3进行了大量标准基准评估,如表8所示。这些评估包括八个顶级类别:(1)常识性推理;(2)知识;(3)阅读理解;(4)数学、推理和解决问题的能力;(5)长语境;(6)代码;(7)对抗性评价;(8)综合评价。
实验设置。对于每个基准,我们计算Llama 3以及各种其他可比较大小的预训练模型的分数。在可能的情况下,我们用自己的管道为其他模型重新计算数字。为了确保公平的比较,我们然后在我们计算的分数和具有可比或更保守设置的模型的报告数字之间选择最佳分数。您可以在这里找到有关我们评估设置的更多详细信息。对于某些模型,不可能(重新)计算基准值,例如,因为没有释放预训练的模型,或者因为API没有提供对对数概率的访问。特别是,对于所有与Llama 3 405b相当的模型都是如此。因此,我们不报告Llama 3 405b的类别平均值,因为它要求所有的数字都可用于所有基准测试。
显著值。在计算基准分数时,有几个方差来源会导致模型在基准上的性能估计不精确,例如少样本、随机种子和批大小。这使得理解一个模型是否在统计上明显优于另一个模型变得具有挑战性。出于这个原因,我们报告了我们的分数以及来自基准数据选择的方差的95%置信区间(ci)。我们使用公式(Madaan et al ., 2024b)分析计算95% ci:
其中S为首选基准分数,N为基准的样本量。我们注意到,因为基准数据中的方差不是方差的唯一来源,所以这些95% ci是能力估计中实际方差的下界。对于非简单平均值的度量,ci被省略。
8B和70B模型的结果。图12报告了Llama 38b和70B在常识性推理、知识、阅读理解、数学和推理以及代码基准测试方面的平均性能。结果显示,Llama 38b几乎在每个类别中都优于竞争机型,无论是在每个类别的胜率方面,还是在每个类别的平均性能方面。我们还发现,在大多数基准测试中,除了可能饱和的常识性基准测试外,Llama 370b的性能大大优于其前身Llama 270b。Llama 370b也优于Mixtral 8x22B。
所有模型的详细结果。表9、10、11、12、13和14给出了预训练的Llama 38b、70B和405B模型在阅读理解任务、编码任务、常识理解任务、数学推理任务和一般任务上的基准性能。表格比较了《羊驼3》的表现尺寸相近的模型。结果表明,Llama 3405b与同类车型相比具有较强的竞争力。特别是,Llama 3405b大大优于以前的开源模型。对于长期上下文,我们在5.2节中给出了更全面的结果(包括像大海捞针一样的探测任务)。
5.1.2 Model Robustness 鲁棒性
除了基准性能之外,鲁棒性是预训练语言模型质量的重要因素。我们研究了我们的预训练语言模型在多选题(MCQ)设置中设计选择的鲁棒性。先前的研究报告称,在这种设置中,模型性能可能对看似任意的设计选择很敏感,例如,模型分数甚至排名可能会随着上下文示例的顺序和标签而改变(Lu et al, 2022;赵等,2021;罗宾逊和温盖特,2023年;Liang等,2022;Gupta等人,2024),提示符的确切格式(Weber等人,2023b;Mishra et al, 2022),或者答案选择的格式和顺序(Alzahrani et al, 2024;Wang et al ., 2024a;郑等,2023)。在这项工作的激励下,我们使用MMLU基准来评估我们预训练模型的鲁棒性:(1)少镜头标签偏差,(2)标签变量,(3)回答顺序,(4)提示格式。
•少量标签偏见。继Zheng等人(2023)和Weber等人(2023a)之后,我们在四镜头示例中研究了标签分布的影响。具体来说,我们考虑以下设置:(1)所有少数例子有相同的标签(A A A A);(2)所有例子都有不同的标签(a B C D);(3)只有两个标签(A A B B和C C D D)。
•标签变体。我们还研究了模型对不同选择令牌集的响应。我们考虑Alzahrani等人(2024)提出的两个集合:即一组与公共语言无关的标记($ & # @)和一组没有任何隐式相对顺序的稀有标记(“§з”ü)。我们还考虑了两个版本的规范标签(A) B、C、D和A) B、C、D)和一个数字列表(1)。2. 3. 4)。
•回答问题。根据Wang等人(2024a),我们计算了结果在不同回答顺序上的稳定性。为了计算这个,我们根据一个固定的排列重新映射数据集中的所有答案。例如,对于排列A B C D,所有标签为A和B的答案选项都保留标签,所有标签为C的答案选项都获得标签D,反之亦然。
•提示格式。我们评估了五个任务提示的性能差异,这些提示所提供的信息水平不同:一个提示只是要求模型回答问题,而其他提示则断言模型的专业知识或应该选择最佳答案。
图13展示了我们研究模型性能对标签变体(左)和少射标签偏差(右)的鲁棒性的实验结果。结果表明,我们的预训练语言模型对MCQ标签的变化和少量提示标签的结构具有很强的鲁棒性。这种稳健性对于405B参数模型的发音。图14展示了我们对回答顺序和提示格式的稳健性的研究结果。图中的结果进一步强调了我们预训练语言模型,特别是Llama 3 405b的性能的稳健性。
5.1.3 Adversarial Benchmarks 对抗性基准
除了上面提到的基准测试之外,我们还在三个方面评估了几个对抗性的基准测试:问题回答、数学推理和释义检测。该测试考察了模型在特别创建的具有挑战性的任务上的能力,并且可能还指向基准上的过拟合。对于问答,我们使用对抗性SQuAD (Jia and Liang, 2017)和动态SQuAD (Kiela et al, 2021)。对于数学推理,我们使用GSM-Plus (Li et al, 2024c)。对于释义检测,我们使用PAWS (Zhang et al ., 2019)。
图15显示了Llama 3 8b、70B和405B在对抗性基准测试上的分数,作为它们在非对抗性基准测试上表现的函数。我们使用的非对抗性基准是用于问答的SQuAD (Rajpurkar等人,2016),用于数学推理的GSM8K,以及用于意译检测的QQP (Wang等人,2017)。每个数据点代表一对对抗性和非对抗性数据集(例如:QQP与PAWS配对),我们在一个类别中显示所有可能的配对。对角线黑线表示对抗性和非对抗性数据集之间的奇偶性-在这条线上将表明模型具有相似的性能,而不管对抗性的性质。
在意译检测上,预训练和后训练的模型似乎都没有受到构建PAWS的对抗性的影响,这标志着相对于上一代模型迈出了实质性的一步。这一结果证实了Weber等人(2023a)的发现,他们还发现llm不太容易受到在几个对抗性数据集中发现的虚假相关性的影响。然而,对于数学推理和问题回答,对抗的表现明显低于非对抗的表现。此模式与预训练模型和后训练模型相似。
5.1.4 Contamination Analysis 污染分析
我们进行了污染分析,以估计基准分数可能受到预训练语料库中评估数据污染的影响程度。在以前的工作中,使用了几种不同的污染方法,具有各种不同的超参数-我们参考Singh等人(2024)作为概述。这些方法中的任何一种都可能出现假阳性和假阴性,而如何最好地进行污染分析目前仍是一个开放的研究领域。在这里,我们主要遵循Singh等人(2024)的建议。
方法。具体来说,Singh等人(2024)建议根据经验选择污染检测方法,根据哪种方法导致数据集的“干净”部分与整个数据集之间的最大差异,他们称之为估计性能增益。对于我们所有的评估数据集,我们基于8克重叠对示例进行评分,这是Singh等人(2024)发现的一种方法,对许多数据集都是准确的。我们认为数据集D的一个例子被污染,如果其标记的比率TD是在预训练语料库中至少出现一次的8克的一部分。我们分别为每个数据集选择TD,根据该值显示三种模型尺寸中最大的显著估计性能增益。
结果。在表15中ÿ