文章目录
- 题目
- 摘要
- 相关工作
- 方法
- 实验与分析
- 指标
- 进一步分析
- 结论
题目
PRD:同行排名和讨论改善基于大型语言模型的评估
论文地址:https://arxiv.org/abs/2307.02762
项目地址:https://openreview.net/forum?id=YVD1QqWRaj
摘要
如今,不同的现代大型语言模型 (LLM) 生成的响应质量很难自动评估和比较。最近的研究表明,LLM 主要用于开放式问答的无参考评估。更具体地说,他们使用公认的“最强”LLM 作为评估者,对候选模型的答案进行成对比较并提供排名分数。然而,这种直观的方法存在多个问题,例如引入自我增强(偏向自己的答案)和位置偏见。我们从教育领域吸取了见解和教训,以改进基于 LLM 的评估。具体来说,我们提出了 (1) 同行排名 (PR) 算法,该算法考虑了每个同行 LLM 对所有答案对的成对偏好,并输出模型的最终排名;以及 (2) 同行讨论 (PD),我们促使两个 LLM 讨论并尝试就两个答案的偏好达成一致。我们在两个基准数据集上进行了实验。我们发现我们的方法实现了更高的准确率,并且与人类判断更加一致。有趣的是,PR 可以在匿名设置下对模型进行相对准确的自我排名,其中每个模型的名称均不公开。我们的工作为探索评估人类难以比较的模型提供了空间。
随着近年来大型语言模型 (LLM) 的开发速度越来越快,评估变得越来越重要,因为它们编码了 LLM 社区应该改进的价值观和优先事项。与此同时,评估也变得越来越困难。例如,最近使用人类反馈强化学习 (RLHF) 进行微调的模型表现出与人类偏好的更大一致性,但这种能力通常无法通过标准 NLP 基准上的良好表现来反映例如 MMLU 和 ARC。此外,人类查询涵盖了各种各样的设置和场景,因此几乎不可能。为了解决这种差异,开放式问题被越来越多地用于测试 LLM 的性能。然后,默认情况下,评估是通过收集人类对成对比较的偏好,然后计算每个 LLM 的分数来得出总体排名来完成的。然而,收集过程既昂贵又耗时,为了自动化和扩大评估规模,最近的大多数研究都利用最先进的 LLM 作为评判者。然而,各种研究表明,这种方法是有问题的,因为提供的成对比较判断通常包含各种偏见,例如偏向 LLM 自己的答案。受这些限制的启发,我们提出了同行评估的想法。目标是减轻自动评估中的偏见,同时仍然受益于 LLM 在阅读和撰写评论方面的强大能力。我们提出同行排名和基于讨论的评估框架 (PRD)。该方案由两种具有相同格式和目标的替代方案组成——让同行 LLM 作为审阅者参与,以达成所有同行都同意的更公平的评估结果。我们从教育心理学研究领域汲取了关于学生同行评审方法 (Walsh, 2014) 的见解和经验教训,以及它们的影响和好处 (Cho & MacArthur, 2011; Yalch et al, 2019)。更具体地说,同行排名 (PR) 用于全球排名并引入审阅者权重。它适用于锦标赛式基准测试设置,其中每个 LLM 成对匹配都会对一个开放式问题产生答案。我们建议根据 LLM 审阅者的能力进行加权投票,而不是使用平均投票来决定最终的偏好得分。同行讨论 (PD) 促进了细粒度的成对比较/排名。它适用于一般的成对比较设置。给定两个候选答案,我们会提示另外两个审阅者 LLM 进行多轮讨论,以就成对评分或偏好达成一致。该过程与 LLM 通过像两个交流代理一样的对话相互交互的格式相似。PR 和 PD 密切相关,并且属于同一主题,即提供更公平(无偏见)的长篇和自由形式答案排名。
随我们进行了广泛的实验和分析,以衡量 PR 和 PD 提供公平成对比较的能力。PR 在 Vicuna80 上进行了测试,其中包含来自人类注释者的成对判断。我们的方法大大提高了与人类排名的相关性。这种范式还使一组 LLM 能够进行自我排名。 PD 在 Vicuna80 和 LFQA上进行了测试,其中包括带注释的人机和机器-机器答案的成对比较。PD 使 LLM 能够实现比基于单一模型的评论更准确的成对比较。PR 和 PD 都显著减轻了上述偏见,尤其是自我增强偏见。此外,我们对 PD 进行了更多分析,结果显示:(1) 领导讨论的 LLM 不太可能改变其观点;(2) 更强大的 LLM 更有可能坚持自己的观点。
相关工作
自然语言生成 (NLG) 评估方法主要属于基于相似性或无参考类型。对于基于相似性的指标,将生成的文本与参考文本进行比较。与此同时,人们还开发了特定于任务的指标,例如一致性 、忠实性和连贯性。这类似于我们关于为基于大型语言模型的评估设计更具体的提示的同行讨论想法。我们基于提示的方法更灵活,可以充当统一的评估器。
具体来说,对于长篇或开放式问答,早期工作使用 ROUGE来衡量人为和机器生成的答案之间的相似性。然而,研究人员发现,由于长篇答案的开放性,ROUGE 并不是一个公平的质量衡量指标。提出了 GPTScore,它使用 GPT-3 等生成式预训练模型评估文本。实现了类似的想法来评估长篇答案。
给定一个由具有两个答案候选的问题组成的提示,GPT-3 经过微调以输出标签答案 1 或答案 2(成对比较)。LLM 作为评估者:问题和挑战最近,随着开发更多 LLM 的趋势,对进展进行基准评估变得更加重要,但也更加困难。它们既在 MMLU 等标准数据集上进行测试,更重要的是,在现实生活中更为普遍的开放式问题上进行测试。人们大多使用 GPT-4作为生成分数或成对比较的评估器。然而,这种策略由于各种偏见而存在根本问题,例如 (1) 位置偏见,其中模型在成对比较中偏向第一个答案;(2) 冗长和长度偏见; (3) 最重要的是自我增强偏见,即LLM倾向于自己的答案 。已提出多种措施来解决这些问题:(1) 使用位置切换来减轻位置偏见;(2) 提出了 Chatbot Arena,真实用户可在此提问并提供对两个 LLM 生成的答案进行成对判断。但这很耗时,并且需要专家注释以确保公平性;(3)建议使用每个 LLM 作为考官,每个考官都会生成问题来测试其他模型。与 PD 不同,他们的“考试”带有偏见,问题都是随机生成的。此外,上述任何一项工作都不支持通过同行排名来诱导自我排名。
总的来说,我们的工作,即面向同行评估的方法,在两个基准上进行了测试,每个基准都涵盖了各种任务,并且更侧重于 LLM 的评估与人类判断之间的一致性。已经有研究探索与 LLM 进行多智能体讨论。它们都是面向任务的框架,旨在提高 LLM 在一般任务上的表现。 专注于数学任务和问答任务。测试了两项任务,包括机器翻译和问答。涵盖了数学和推理。实现了一个多智能体辩论框架,其中包含多个评估提示。先前的工作利用 LLM 交互来完成任务并提高模型的准确性。对于我们的案例,基于来自人类的一个反应和来自 LLM 的另一个反应,我们的方法利用 LLM 交互来讨论哪一个更好,以实现符合人类偏好的更好评估。
教育领域的同行评估先前的教育研究工作主要集中在人机交互研究,例如在课堂上。他们进行以人为本的数据收集和实验,以验证同行评估的好处。相比之下,我们专注于自动评估,聘请 LLM 同行评审员对 LLM 的答案进行成对比较。此外,我们的同行排名流程侧重于成对比较,而不是绝对成绩。
图 1:同行排名过程 (PR):每个 LLM 模型既充当审阅者 (A、B、C),又充当参赛者 (1、2、3)。从参赛者之间的较量 (成对比较) 中,它引发自我排名。在此示例中,模型 A、B 和 C 分别代表 GPT-4、Bard 和 Claude
方法
一般而言,同行排名 (PR) 可用于诱导自我排名——对一组 LLM 自身能力的排名。同行讨论 (PD) 提供了两个模型答案的更细粒度和交互性比较。它们都旨在减少自动评估中的偏差。我们将在本节中详细说明技术细节。3.1 同行排名和评分(PR) 图 1 说明了同行排名算法。其基本思想是从同行评审员的判断中获得每场战斗的加权分数,然后从分数中得出自我排名。这个过程会多次迭代,直到分数收敛。 给定一组问题 Q,我们从每个 LLM 生成每个问题的答案。令 Am(q) 为模型 m 对问题 q ∈ Q 的答案。每场战斗代表两个模型(参赛者)回答同一个问题 q。LLM 评审员模型 r 对战斗中的答案的比较形成评审。 令 Kr(x, y) 为评审员 r 对一对答案 (x, y) 给出的分数。我们使用分数 −1 表示第一个答案更好,0 表示平局,1 表示第二个答案更好。假设我们有一组审阅者模型 R 和一组参赛者模型 C。我们形成一组战斗评论,B = {(q, i, j, r, s)| q ∈ Q, (i, j) ∈ C 2 , r ∈ R},其中 s = Kr(Ai(q), Aj (q)) 是审阅者 r 对问题 q 的 i 和 j 生成的答案/响应给出的分数。我们为这次评论创建了一个简写 Kij r (q)。
基于这些同行评审,我们可以通过计算每个参赛者的胜率和每个参赛者的 Elo 评级(第 3.1.2 节)等指标,根据模型的表现对其进行评估。由于每个模型都由其同行排名,我们称之为同行排名。具体来说,问题集应该是多样化的,涵盖各种任务,例如问答(12.5%)、撰写电子邮件(12.5%)、编码(6%)、数学解题(4%)等。答案/回复的格式也应有所不同,包括简洁的答案、分步推理、详细解释、代码片段、长篇答案等。审阅者评估响应对并在此过程中表明偏好(“战斗回顾”)。然后,可以计算胜率和Elo指标。参赛者的胜率是该参赛者的胜利次数除以其参加的战斗次数。平局计为双方各胜0.5场。我们的胜率计算根据相应审阅者作为参赛者的表现(1、2、3)为不同审阅者(A、B、C)提供的分数分配不同的权重。这个假设是,表现更好的模型也更适合评估和比较答案,因此在评估中应该给予它们更大的权重(公式 2)。换句话说,由于分数是衡量他们正确审阅/评分能力的标准,我们用他们自己的分数来衡量一个 LLM 给另一个 LLM 的胜率。
此外,自我奖励论文也做出了这一假设。他们在迭代过程中使用模型本身进行评估,并证明这是有意义的。在他们的结果中,表现更好的模型在为自己提供高质量的评估/奖励方面也表现良好。最初,所有审阅者都被赋予相同的权重。在每次计算迭代中,使用当前权重计算每个参赛者的胜率。使用线性缩放将胜率缩放到 [0, 1] 的范围。然后,再次缩放它们,使它们的总和为 1。接下来,这些结果被用作下一轮的权重。正式地,让 Wc r 成为从评论者 r ∈ R 的评论中得出的参赛者 c ∈ C 的原始胜率。这等于 c 赢得战斗的次数加上 c 平局次数的一半,再除以 c 参加的战斗次数。Wc r = 奈 q 奈 d∈C,d̸=c f(K dc r (q)) + f(−K cd r (q)) 2|Q|(|C| − 1) (1) 其中 f(score) = score+1 2 将第二位参赛者的得分 (loss = −1, tie = 0, win = 1) 映射到胜利数 (0, 0.5, 1),因此平局算作胜利的一半。请注意,我们在将 Kcd r (q) 输入 f 时将其取反,以便计算 c 的胜利值而不是 d。此外,由于有 |Q| 个问题、|C − 1| 名参赛者参加战斗,以及 2 个两名参赛者参加战斗的命令,因此共有 2|Q||C − 1| 场战斗涉及固定参赛者 c。
令 α k r 为第 k 次迭代后分配给审阅者 r 的权重。最初,α 0 r = 1/|R|,以便所有审阅者具有相同的权重,并且权重之和为 1。也就是说,我们假设每个审阅者 LLM 都具有相同的起始能力。第 k 次迭代中,参赛者 c ∈ C 的分数是参赛者 c 的原始胜率的加权平均值。我们将下一次迭代的权重设置为 α k :score k c = 奈 r∈Rα k−1 r·Wc r, α k = Norm(MinMax(scorek)) (2)其中,权重被缩放到 [0, 1] 的范围,并最终标准化使和等于 1:MinMax(S) = S − minr∈R(Sr)maxr∈R(Sr) − minr∈R(Sr)给定这组方程,我们寻找框架的固定/收敛点。这个过程让人想起 PageRank 算法(Page 等,1999)面临的问题。附录 E 中的算法 2 显示了 PR 的详细等效实现。
整个过程简单但有效。它会自动调整所有模型的权重并减轻自我增强偏差。在此过程中,会考虑每个审阅者模型的分数,而不是只考虑一个模型本身(公式 2)。虽然审阅者可能更喜欢其输出,但其他审阅者的分数提供了公平的平衡。此外,由于标准化操作,较弱模型的审阅权重会自动降低(至接近零)。实证测试表明,将自权重固定在零会导致性能较差。
3.1.2 Elo 计算 计算参赛者相对于其他参赛者的表现的另一种方法是 Elo 评分,该方法用于对玩家进行排名,并广泛用于游戏(战斗)。它通过预测对对手的预期胜率来衡量玩家的相对技能水平。它需要一系列成对的评论并为每个参赛者生成评分,评分越高表示表现越好。与胜率相比,这是一种更细粒度的测量。基于类似的想法,我们根据评论者之前的表现为他们分配不同的权重,以便来自权重较高的评论者的评论对 Elo 评分有更大的影响。
与胜率计算类似,我们从对所有评论者赋予相同权重开始,然后对得到的 Elo 评分进行规范化以给出下一次迭代的权重。我们用新的权重重复 Elo 计算,根据新的评分更新权重,并继续重复直到收敛。证明了收敛的保证。与涉及教育领域学生评分的相比,我们的工作重点是同行 LLM 评审员利用胜率和 Elo 分数对 LLM 的答案进行成对比较。我们为机器学习领域引入了一种自动 LLM 同行评估指标,并扩展了 Walsh 的收敛证明,通过实验结果展示了我们方法的可靠性。
以下是实际 Elo 评级计算的简要概述。所有参赛者的初始评分都是 1000。在每场战斗中,每个参赛者获胜的预期可能性都是根据他们的 Elo 评级之间的差异计算的。获胜者的 Elo 评级会增加,而失败者的评级会降低。
Elo 评级变化的幅度与结果的可能性成反比。在我们的计算中,我们对审稿人进行加权,以便高权重审稿人的审稿会导致更大的Elo变化。有关更多详细信息,请参阅附录E中的算法1。在同行讨论中,我们提示两位LLM讨论如何判断两个候选答案,试图达成最终一致的评审。所有提示都包含详细说明,并指定LLM的输出格式。在图2中,我们演示了两位LLM审稿人(A和B)之间的同行讨论过程。输入是一个给定的问题和两个答案,这两个答案可能都是由机器生成的,也可能是一个由人类生成的,另一个由机器(例如 GPT-3 与人类答案)首先对答案进行两两比较,提供解释,并在最后输出数字 1 或 2 来表明他们喜欢的答案(获取初步评论的提示列在表 1 中)。然后,两个模型讨论多个回合,直到达到固定的回合数。
图 2:同行讨论流程(PD)。粗体和斜体文本描述了答案 1 和答案 2 的优势。在这个例子中,最终,两位 LLM 审阅者达成一致,选择答案 1(人工书写的答案),这与人工注释者的偏好相关。
表 1:它显示了具有三个位置({Q}、{A1} 和 {A2})的审阅者审阅模板。我们指示审阅者模型关注核心方面,其定义见附录 F。如 Wang et al (2023a) 所述,在提示中强调位置偏见后,位置偏见仍然存在。
讨论的具体提示如表 2 所示。一开始,系统提示(角色提示)告诉模型它们的角色——是审阅者 A 还是审阅者 B(例如 Claude 或 GPT-4)。然后,逐行列出所有信息,包括问题、两个比较答案和初始评论。初始评论的顺序与讨论中审阅者的顺序相同。换句话说,如果审阅者 A 领导讨论,首先列出审稿人 A 的初步审稿。在讨论开始之前,系统提示指定了详细要求,这些要求提供了需要关注的明确方面。具体来说,我们从 WebGPT的注释指南中汲取了见解。对于长篇问答,我们关注 (1) 不支持的信息:检测没有支持的信息,假设最坏的情况:所有信息都是错误的。这个方面最重要,通常决定了整体评分;(2) 核心信息:关于问题是否真的得到了回答;(3) 连贯性:一般来说,它不如上面两个重要。然后,最终确定整体偏好。此外,我们不会根据我们在实验中测试的任何数据集调整上述提示。
表 2:第三轮审稿人 A 的讨论模板。与审稿模板类似,我们明确指出了审稿人需要注意的方面。以上所有文本都是聊天记录,输入到审稿人 A LLM 模型中。
实验与分析
&ensp数据集、指标和设置 4.1.1 数据集 我们选择了两个“元评估”数据集,LFQA和 Vicuna80,并带有人工注释以进行成对比较,以衡量我们的评估方法与人类判断之间的相关性。 LFQA包含七个领域(例如经济学、历史和生物学)的 140 个长篇问题和每个领域的两个候选答案。与 ELI5类似,它包含来自 Reddit 论坛“r/explainlikeimfive”和“r/AskHistorians”的较新(即 2021 年 7 月之后)的问题。作者收集了专家级注释,说明哪个答案更好(总体偏好)。 Vicuna80 是一组 80 个开放式问题,涵盖 9 个类别,涵盖广泛的任务,包括问答、电子邮件写作、数学问题等。在 QLoRA 工作中,作者为每个问题在 7 个模型中注释了成对比较分数(总体偏好)。分数包括 0、1、2,分别对应平局、模型 1 获胜和模型 2 获胜。我们选择了 4 个模型答案的成对比较注释(即 GPT4、ChatGPT-3.5.、PaLM-2、Vicuna-13b)。为了使我们的研究更加全面,我们添加了最近的专有语言模型,例如 Claude。具体来说,我们还注释了 Claude 的答案与其他 4 个模型的答案之间的成对比较。我们将其称为数据集 Vicuna80 的更完整版本。附录 I 提供了有关注释过程的更多详细信息。由于开放式问题的答案更难比较,因此注释者达成了公平的一致。
SummEval 是一个评估摘要的基准。它包含来自 CNN/Daily Mail 数据集的 100 篇新闻文章的 1600 个摘要。每个摘要都从四个方面进行评估:连贯性、一致性、流畅性和相关性。在我们的实验中,我们取四个指标的平均值作为评估结果。
表 3:上表显示了在 Vicuna80 数据集上执行的结果。行代表战斗中的参赛者,列代表评估方法。上表显示了 LLM 审阅者和人类评分者之间的 Elo 分数相关性。下表显示了全球胜率之间的相关性。表 4 中新兴(更多)LLM 的其他结果进一步验证了 PR 的一致稳健性。粗体数字最接近人类评分者的分数。蓝色数字显示 LLM 审阅者和人类评分者的分数之间的差异。
在 LFQA 中,问题每个类别有 1-3 个专家级注释,人类一致性在 0.4 到 0.65 之间。每个 Vicuna80 问题都有 3 个人类注释,人类一致性在 0.5 到 0.62 之间。每个 SummEval 摘要由 8 个人类注释,一致性数为 0.7。我们在战斗中使用人类多数票作为人类偏好。
指标
对于 PR 实验,我们遵循中的指标。我们首先进行示例级别的成对比较。具体来说,每个评估示例(成对比较)由一个问题和一对答案组成。我们将模型预测的偏好分数与黄金人类偏好进行比较,并报告准确度和 Fleiss’ κ,后者是衡量多个评估者之间一致性可靠性的统计数据。具体来说,Fleiss’ κ 用于衡量模型预测与人类偏好之间的一致性,其中分数越高表示一致性越强。我们还将模型预测的全局排名分数与人类判断的排名分数进行比较。具体来说,我们报告基于 Elo 分数和胜率 (WR) 的排名(表 3)。我们使用 All 来表示我们的方法,其中每个审阅者都具有相同的权重,并使用 All (Weighted) 来表示将最终轮权重应用于每个审阅者的设置。除了分别对 PR 和 PD 进行实验外,我们还在 GPT-3.5 与 Vicuna-13b 的答案质量判断实验中比较了 PR 和 PD。对于 PD 实验,我们使用同行讨论准确率 (PDA) 来描述模型讨论结果与人类注释者的相关性。PDA 是通过同行讨论结果中正确答案的数量除以所有答案的数量来计算的。较高的 PDA 结果表示与人类判断的相关性更好。
图 3:每位 LLM 评审员的同行排名最终权重。GPT-4 和 Claude 分别占 48.8% 和 37.7% 的权重。Bard 的权重接近于零。图 4:GPT-4 在 Vicuna80 上每 100 场战斗的 Elo 分数。GPT-4 审阅者提供的 Elo 分数始终高于人类评分,而我们的所有(加权)评分与人类具有良好的相关性。
对于 Vicuna-13b,我们使用的默认版本。对于所有其他基于 API 的 LLM 模型,我们分别使用每个模型的特定版本,即 GPT-4-0613、GPT-3.5-turbo-0613、Claude-1 和 Text-Bison@001,分别用于 GPT-4、GPT-3.5、Claude 和 PaLM-2。有关更多详细信息,请参阅附录 B。对于 PD 方法中的讨论,我们将最大轮数设置为 4。根据我们的实验,大多数讨论在第 4 轮时达成一致。此外,所有模型的默认温度均为 0.2。同行排名 (PR) 的结果在 Vicuna80 数据集上,我们将我们的 PR 方法与代表性的基于 LLM 的评估方法进行了比较。
在表 5 中,除 Claude 外,列出的所有审阅者组合与示例级别的人工审阅相比,其 Fleiss’ κ 均约为 0.40,表明一致性为中等。LLM 审阅者之间的准确度存在显着差异。最差的审阅者是 Claude,准确度仅为 60.7%。
最好的个人审阅者是 GPT-4,准确度为 64.3%。审阅者组合 (PR) 将此准确度提高了几个百分点,我们的 PR 方法最高,为 67.3%。
表 5:示例级相关性结果,对于第四行和第五行,我们采用同行评审员的多数投票,并按胜率加权。双尾 t 检验结果统计显著性用 ∗ (p < 0.01)、∗∗(p < 0.002) 表示。
检查表 3,GPT-4 审阅者对 GPT-3.5 的排名更高,而我们的 All (Weighted) 排名与人类相同:即 GPT-4 > Claude > Vicuna > GPT-3.5 > PaLM-2。这表明加权同行排名可以更准确地评估模型的整体性能。此外,排名与 Chatbot Arena Leaderboard2 中的排名相对应。因此,可以验证第 3.1.1 节中的假设。就人类评论提供的 Elo 评级而言,我们清楚地观察到 GPT-4 明显偏向自己的答案,并且容易出现自我增强偏差。我们的方法产生最接近的 Elo 评级。此外,它还产生了最接近的胜率(对于许多参赛者来说,差异不到 1%)。一开始,当每个审阅者的权重相同(权重等于一)时,“所有审阅者”给出的胜率较低,约为 0.749,部分原因是每个审阅者都受到平等对待,因此每个审阅者可能对自己的答案有偏好。经过几轮/迭代后,最终的胜率变得更加公平。我们在图 3 中展示了最终轮的权重。
图 5:成对胜率热图:所有 A vs. B 战斗中模型 A 获胜的分数(A:行,B:列)。左:GPT-4 评估者;中间:我们的方法全部(加权);右:Chatbot Arena 成对胜率。三个子图中的所有结果都是使用相同数据分别生成的。
在图 4 中,我们绘制了 GPT-4 Elo 分数如何随着更多战斗输入 Elo 算法而变化的折线图。随着战斗数量的增加,GPT-4 的得分会上升。我们可以观察到 GPT-4 在整个过程中表现出自我增强,而我们基于 PR 的评估与人类成对比较有很好的相关性。在图 5 中,我们展示了每两个参赛者(LLM)之间的详细成对胜率。我们将我们的评估与基于 GPT-4 的评估以及 Chatbot Arena 排行榜进行了比较。Arena 排名2基于用户查询及其对两个响应的相应偏好。该图表明,尽管两种方法都有利于 GPT-4 和 Claude 的答案,但我们的方法 All (加权) 计算出的胜率与 Arena 胜率的相关性更好,尤其是在较弱的模型上。更多成对胜率热图见附录 H。
通过初步研究,我们发现要求明确方面(例如核心信息、不支持的信息和连贯性)的模板可以大大帮助 LLM 审阅者生成有价值且信息丰富的评论,这些评论与人类注释者的相关性更高。 我们首先进行初步实验,以找到一个相对较好的提示来促进 LLM 同行讨论。表 6 中的前两行列出了 GPT-4 的同行讨论准确度 (PDA) 和 Claude 在讨论前的初始成对比较偏好。它们与人类偏好有中等程度的一致性,GPT-4 领先约 5%。对于基于讨论的评估者,我们报告了三种类型。我们所说的“GPT-4 领先”是指 GPT-4 首先表达意见的讨论;我们所说的“随机”是指随机挑选领导者的讨论。在讨论中(最后三行),当我们使用通用提示(例如“选择你喜欢的答案”)时,讨论的最终偏好 PDA 约为 0.69,高于 Claude 的初始判断的 PDA,但低于 GPT-4。当我们在提示 3 中添加更多明确方面时,PDA 会显着提升(4% 的改进)。当我们将角色/身份信息(附录 G)添加到每个回合的提示(“w/角色”)时提醒审阅者,两种模型的 PDA 分数都有所增加,表明角色信息对 LLM 进行讨论很有帮助。
表 6:不同提示对同伴讨论准确性的影响(在 LFQA 数据集上)。前两行是讨论前的结果(分别来自 GPT-4 和 Claude)。后三行是讨论后的结果。
表 8:LFQA 上的同行讨论准确率 (PDA)。“-0.8”表示温度为 0.8。统计显著性用 ∗ 表示(p < 0.05)。“最佳提示”表示讨论使用了表 6 中的最佳提示。(±数字)表示标准差。
表 9:模型评估结果与 Summeval Benchmark 之间的汇总级 Spearman (ρ) 和 Kendall-Tau (τ) 相关性。R1 和 R2 列包含讨论前的结果。其余列代表讨论结果。所有分数的方差均低于 0.06。所有讨论结果(粗体)的 P 值均小于 0.05。
总体准确度 在表 8 中,我们报告了基于表 6 中最佳两个讨论提示的多种审阅者讨论结果组合的同行讨论准确度 (PDA)。我们观察到:(1)当两个审阅者 LLM 具有相似的能力时(例如,表 3 中的 GPT-4 和 Claude 相差不到 100),他们在初次审阅时就达到了稳定的改进。在上面的例子中,GPT-4 获得了 3% 的提高(从 0.729 (±0.014) 到 0.743 (±0.011)),Claude 获得了 8% 的提高(从 0.671 (±0.025) 到 0.729 (±0.018)); (2)当审阅者能力差距较大时(例如表 3 中 GPT-4 和 GPT-35 相差大于 100),较弱模型的 PDA 总是能达到最大的改进和最高的最终结果。在上面的例子中,GPT-35 获得了 30% 的提升(从 0.579(±0.026)到 0.700(±0.018))。;(3)当模型“自我讨论”时,例如,我们通过设置不同的温度来创建同一模型的两个变体并促使它们讨论,较弱的模型(例如 GPT-3.5)可以显着“自我改进”(从 0.579(±0.026)到 0.664(±0.018))。 GPT-4 的自我讨论几乎没有带来什么改进(从 0.729(±0.014)到 0.779(±0.014))。未来关于如何设计更好的自我讨论策略的研究值得努力。
表 9 显示出与表 8 相同的趋势。相关性得分越高,讨论结果与人工注释越一致。具有相似功能的模型(GPT-4 和 Claude)在讨论后会得到很大的改进。差距较大的模型(GPT-4 和 GPT-35)达到的结果接近更强的模型。当一个模型进行自我讨论(GPT-35)时,它可以提高自身的性能。表 7 报告了 GPT-3.5 与 Vicuna-13b 对 Vicuna80 问题的回答的准确率比较,我们看到 GPT-4 和 Claude 的讨论将准确率提高了 1.5% 以上。此外,我们与 PR 方法进行了比较,发现加权评分后评论效果明显更好。
同行讨论有助于减轻自我提升偏见 根据我们之前的发现,LLM在担任评判者时会出现自我提升偏见——更喜欢自己生成的答案或同一系列模型(例如 GPT-4 和 GPT-3)的答案。我们对 LFQA 问题子集进行了实验,其中我们对人类和机器生成的(GPT-3 text-davinci-002)答案进行了人工注释的成对比较。表 10 显示了人类和三名 LLM 评判的 GPT-3 的胜率。我们报告了 LLM 的初始和讨论后的偏好。GPT-3.5 和 Claude 在他们的初步评论中都非常喜欢 GPT-3 的答案。具体来说,GPT-3.5 明显偏向 GPT-3 的答案,胜率高出 13.79%。在与其他 LLM 讨论后,所有模型都与人类更加一致。我们的同行讨论方法在很大程度上帮助 GPT-3.5 减轻了自我增强偏见。在讨论之前,GPT-4 的初始偏好与人类非常一致,在同行讨论后几乎与人类相同。虽然 GPT-4 仍然有自我增强偏见,但它并不偏爱 GPT-3 的答案。
同行讨论有助于缓解立场偏见 正如 Wang 等人 (2023a) 最近的研究表明,LLM 容易受到立场偏见的影响,描述了 LLM 倾向于表现出对特定立场的偏好,即使在被提示不要这样做时也是如此(附录中的表 1)。在表 11 中,当模型生成初始评论时,GPT-3 的胜率受其位置的影响很大。与 Claude 和 GPT-4 相比,GPT-3.5 非常喜欢第一个位置的答案。GPT-3.5 计算出的 GPT-3 胜率比 GPT-3 首先出现时基于人工注释的成对比较的胜率高 15.79%(73.68 vs 57.89)。经过同行讨论,所有 LLM 审阅者的偏好都更接近人类。其次,所有 LLM 对 GPT-3 两个位置答案的评分也更接近,表明同行讨论后立场偏见得到缓解。从另一个角度来看,图 6 显示了不同 LLM 审阅者对选择第一或第二位置答案的全局偏好。总体而言,GPT-3.5 更喜欢第一位置的答案。其他两个模型更倾向于第二位置的答案,类似于表 11 中显示的位置偏见。经过同行讨论,它也显示出减轻位置偏见的相同趋势。
表 10:不同审阅者在 LFQA 上评判的 GPT-3 答案胜率。对于所有 LLM 审阅者,我们采用他们参与的所有讨论的平均准确率。自我提升是存在的,并且受到 PD 的缓解
进一步分析
主导讨论的审稿人倾向于坚持自己的观点。在两个 LLM 审稿人之间的讨论中,我们将主导讨论的审稿人定义为领导者,另一个审稿人为追随者。 我们发现,当领导者在第一轮坚持自己的观点时,追随者不太可能说服他们。我们称之为“讨论排序效应”。我们在 LFQA 问题的讨论中观察到了这种效应。 我们定义了讨论过程中可能发生的两种现象:(1)意见改变(OA):审稿人在讨论后改变意见。例如,R2 在第 2 轮发表的偏好与 R1 在第 1 轮的偏好不同,然后 R1 在第 3 轮改变了它的偏好,同意了 R2 的观点;(2)意见持有(OH):审稿人即使另一个审稿人不同意,也不会改变自己的观点。例如,R1 在第 1 轮发表自己的偏好,而 R2 在第 2 轮不同意 R1 的观点;然后,R1 在第 3 轮仍然保持其偏好。如图 7 所示,所有模型在处于跟随者位置时都有 OA,而在切换到领导者位置后,它们的 OA 数量显着减少。这意味着讨论排序效应存在。在 LFQA 的两两比较中,当两个审阅者最初意见不一致时:当处于领导者位置时,GPT-4 没有 OA,而 Claude 有两个 OA(在与 GPT-3.5 讨论期间发生)。当 GPT-4 与 Claude 讨论时,他们两人在处于领导者位置时都保持最初的偏好。
图 6:三篇 LLM 论文在同行讨论后的初始和之后的立场偏见。人类对任一立场都有同等的偏好(红色虚线)。图 7:三个模型在领先和跟随位置的讨论排序效应。
更强的 LLM 倾向于坚持自己的意见从图 7 可以看出,我们将每个 LLM 审阅者的绿色质量(OH 总数)相加,以获得他们在两个排序中的 OH 情况。我们看到,普遍认为更强大的模型(例如 GPT-4)在评论中更加坚定并坚持自己的意见。例如,GPT-3.5 最常改变其意见,而 GPT-4 通常坚持其意见。更具体地说,GPT-4 在 174 次讨论中坚持其意见,而 Claude 和 GPT-3.5 分别仅在 94 次和 76 次讨论中坚持其意见。
结论
在这项工作中,我们为使用同行评估方法改进基于 LLM 的评估提供了有希望的前景。我们的框架减轻了以前流行方法中的潜在偏见(例如自我提升、位置偏见)。我们提出的同行排名流程提供了更公平的模型能力排名。同行讨论过程有助于模型达成与人类偏好相关的相互协议。未来,我们计划研究一般的同行评估过程如何帮助 LLM 学习获取自己的答案并回答新问题 Nicol 等人(2014 年)。