原文:https://arxiv.org/abs/2412.16339 出自OpenAI
摘要
随着大规模语言模型对安全关键领域的影响越来越大,确保它们可靠地遵守定义良好的原则仍然是一个基本挑战。本文提出慎思校准,一种新的范式,直接教模型安全规范,并训练它在回答之前明确地回忆和准确地推理规范。我们使用这种方法来对齐OpenAI的o系列模型,并实现了对OpenAI安全政策的高度精确遵守,而不需要人工编写思维链或答案。审慎对齐提升了帕累托边界,提高了对越狱的鲁棒性,同时降低了过度拒绝率,还提高了分布外泛化能力。通过对明确指定的策略进行推理,可以实现更可扩展、可信和可解释的对齐。
1 简介
现代大型语言模型(IIm)使用监督微调(SFT)和来自人工反馈的强化学习(RLHF)进行安全训练,以
减少有害的、不受欢迎的或其他不允许的输出。尽管这些方法在不断进步,但今天的模型仍然显示出安全缺陷:它们可能被欺骗以泄露有害内容,经常拒绝合法请求,并且仍然容易受到越狱攻击。
本文认为,其中许多失败源于现代安全培训的两个局限性。首先,Ilm必须使用固定数量的计算即时响应用户请求,即使是复杂的安全场景也无需考虑。其次,llm必须从大量标记的示例中间接推断出基本的安全标准,而不是直接学习管理它们的安全规范。这种对基于模式的隐式学习的依赖导致数据效率低下,并使模型在面对不熟悉的场景或对抗性攻击时具有挑战性。
本文提出慎思校准,一种训练方法,教IIm在产生答案之前通过安全规范明确推理。通过将此方法应用于OpenAI的o系列模型[1],使它们能够使用思维链(CoT)推理来检查用户提示,识别相关的政策指导方针,并生成更安全的响应(例如,图1)
我们的方法分为两个核心阶段,整合基于过程和基于结果的监督[9]。在第一阶段,通过对CoTs引用规范的(prompt,CoT, output)示例进行有监督的微调,教模型在其思维链中直接推理我们的安全规范。我们使用上下文蒸馏和一个仅为有用性而训练的o型模型(即在没有有任何安全相关数据的情况下训练)来构建这个数据集。将安全规范作为系统提示的一部分提出模型,生成模型完成,然后剥离系统提示以形成最终数据集。这一阶段为模型提供了通过安全考虑进行推理的强大先验。在第二阶段,我们使用高计算强化学习来训练模型,使其更有效地思考。为此,我们使用给出安全规范的judgeLLM提供奖励信号。
值得注意的是,所提出的训练程序不需要人工标记完成。尽管只依赖于模型生成的数据,但实现了
高度精确的规范遵循。这解决了标准LLM安全培训的一个主要挑战它严重依赖于大规模的人工标记数据:随着LLM能力的提高,有资格提供这种标记的人工培训师池缩小,使其更难用能力扩展安全。慎虑对齐的合成数据生成管道提供了一种可扩展的对齐方法,为评估保留了人类的专业知识。
在一系列内部和外部安全基准(如越狱和内容策略拒绝评估)上,将o1与GPT-40和其他最先进的llm进行了比较。o1模型通过减少拒绝次数不足和拒绝次数过多实现了帕累托改进(参见图2),它们饱和了许多最难的安全基准。慎思对齐能对分布外安全场景进行强大的泛化。在详细的消融研究中,发现过程监督提供了强大的先验,而基于结果的强化学习完善了CoT安全推理。总的来说,我们的结果表明,思维链推理可以利用测试时计算来改善安全行为,最终将llm训练为“因正确的理由而正确”。
2 方法
审慎对齐方法的动机是以下观察:在获得实际安全策略的情况下,o1模型通常能够正确地推理如何响应潜在不安全的提示。因此,一种自然的方法是在部署时简单地将所有有安全规范的文本放在上下文中,并指示模型在回答之前检查所有策略。然而,这种方法有明显的延迟成本:在大多数情况下,对一页一页的安全规范进行推理对于良性的用户提示来说是多余的。此外,如果模型型在执行指令时失败,它可能会错过策略的相关部分,并输出不安全的内容。
相反,审慎对齐试图通过教模型识别策略何时可能相关,然后对该策略进行推理,以产生符合策略的答案,将安全规范的知识直接嵌入到基础模型中。事实上,正如我们在4.1节中发现的那样,审慎对齐比在部署时提供这些规范更可靠地将模型与规范对齐。
下面,我们首先提供我们的方法的高层次概述。然后,我们在以下小节中更详细地讨论我们方法的每个步骤。
2.1 概述
2.2 安全规范
我们旨在使我们的模型Gspec保持一致的规范包括不同安全类别的内容策略,以及如何响应的样式指南。安全类别的例子包括:色情内容、极端主义、骚扰、非法行为、规范建议、自残和暴力。对于每个安全类别,相应的内容策略定义了相关术语,然后描述了用户请求为 1)的情况。"允许",这样模型应该遵守,2)"不允许",这样模型应该拒绝,或3)"需要安全完成。3.1.1部分显示了非法行为和自残安全类别的内容政策摘录。我们使用的规范部分基于OpenAI发布的模型规范。
规范中的样式指南给出了详细的说明,说明一旦模型决定根据内容策略这样做,如何遵守、拒绝或安全完成。图4显示了硬拒绝风格指南的摘录。在由于请求的敏感性质,模型不能简单地遵守的情况下,安全完成是必要的,但是直接拒绝响应也可能是有害的或不适当的。在安全类别规范中提供了详细的特定主题的安全完成指南,如自我伤害和受管制的建议(例如医疗或法律建议)。请注意,对于一个给定的类别,例如自残,一些要求应该被允许(例如,关于自杀概念的教育性讨论),一些要求"自残安全完成"(例如,表示自残概念的内容,或要求实施自残的方法)
形成特定类别的规格 总的来说,安全规范很长。为了保持上下文长度可管理,制定了特定于类别的策略规范(记为spec(category)),提供有关所有安全类别的高级细节(以及风格和有用性原则)和仅有关相关类别的粒度细节。这允许我们在减少总体上下文长度的同时,提供规范中最相关部分的附加信息。在实践中,发现在通过spec(category)时,推理模型比在给定整个规范时更可能关注相关类别。
2.3 SFT 阶段
在第一阶段,目标是收集(然后训练)一组(提示、CoT、输出)元组,其中 CoT 推理安全规范以得出符合策略的答案。
2.3.1 生成
我们从收集与相关安全类别(例如色情、自残)相关的提示开始。这些提示中的每一个都是一个聊天对话,可能由用户、助手、工具和系统角色进行多轮对话,最后以用户回合结束。对于每个(提示、类别)对,我们编写特定于类别的安全规范 spec(category)。然后,我们通过使用相关安全规范的文本提示基础推理模型 Gbase,收集在思路链中引用我们策略的(CoT、输出)完成。具体来说,规范增强提示包括:
• 原始提示
• 类别特定的安全规范 spec(category)
• 引用和讨论 spec(category) 相关部分的说明
图 5 显示了增强提示的构造方式(为清晰起见进行了简化)。最终结果是引用和推理策略的 CoT。有关生成的完成示例,请参阅第 3.1 节。
2.3.2 质量过滤
我们使用自动过滤过程确保 SFT 数据的质量。具体来说,在过滤掉低质量的完成(例如,格式错误或格式错误的完成)后,我们使用推理模型 GRM 对每个完成进行 k 次判断,该模型也可以访问类别特定的安全规范 spec(category)。分配给每个单独完成的分数是 k 次运行中的最低分数——我们取最小值,因为任何一次运行都可能忽略完成的问题。然后我们保留得分高的完成。
GRM 本身与规范无关,只能通过其提示了解规范。图 6 显示了奖励模型 GRM 的提示示例(为清晰起见进行了简化)。GRM 判断(提示 CoT、提取的答案)以及相关的安全规范 spec(类别)并输出分数。
值得注意的是,我们的许多数据集都有相关的元数据,例如理想完成的标签(例如,拒绝、遵守或安全完成)或关于提示计算的离线上下文。这些元数据可能很嘈杂,来自人类和人工智能标记的混合。当存在此可选元数据时,我们通过在提示中添加“在您的答案中,考虑另一个人工智能确定...”来向 GRM 提供此附加信息,并要求奖励模型证明其同意此分析。我们发现这种提供(可能有噪声的)元数据的方法在指导 GRM 和不过度索引标记噪声之间划清了界限。
2.3.3 SFT 训练
此时,我们已经收集了一个由 {prompt,CoT,output} 元组组成的数据集,其中 CoT 引用安全规范,并且输出中的最终答案已被判断为符合策略。我们使用监督微调和其他功能数据在此数据集上训练 Gbase。值得注意的是,我们使用原始版本的提示,其中不包含有关规范(类别)的任何详细信息。通过从提示中删除有关安全规范的任何上下文,我们教会模型能够回忆规范的相关部分并对其进行推理,即使它们不是直接在对话上下文中提供的。我们将 SFT 过程的结果标记为 GSFT。
2.4 RL 训练
在 RL 阶段,对于与安全相关的提示,我们再次使用我们的“判断”模型 GRM 来访问我们的安全策略,为我们的 RL 堆栈提供额外的奖励信号。具体来说,RL 安全数据包含一组 (prompt, category) 对,同样可能包含质量各异的其他有用元数据。
虽然 GRM 在 SFT 数据过滤期间接收 CoT,但 CoT 在 RL 期间隐藏在 GRM 中。我们避免在 RL 期间对 CoT 施加直接优化压力,以使底层模型能够减少鼓励欺骗性 CoT 的机会。
虽然我们方法的 SFT 部分用于所有 lo 系列模型,但添加了这个特定的 RL 奖励信号来训练 o1 模型和 o3-mini。
3 结果
我们使用了审慎对齐来对齐 OpenAI 的 so 系列模型,包括 o1-preview、o1 和 o3-mini。在本节中,我们讨论了 o1 系列相对于 GPT-4o 和其他领先的外部模型的关键安全性和稳健性结果。在第 4.1 节中,我们分解了我们方法每个阶段的有效性,然后深入探讨 OOD 泛化的含义(第 4.3 节)。
3.1 安全评估
我们首先将 o1 模型与 GPT-4o 模型在关键政策领域进行比较,例如不允许的内容、遵守响应风格指南、越狱和过度拒绝(见表 1)
3.1.1 不允许的内容
我们的不允许内容评估检查模型是否遵守有害内容的请求,包括仇恨内容和非法建议,并正确处理自我伤害或受监管建议的请求(例如医疗或法律建议)。在这里,我们考虑两种评估:
- 挑战性拒绝评估:一组挑战性生产流量的评估集,这些流量请求不允许的内容。
- (有毒)WildChat [15]:来自 1M GPT-3.5T 和 GPT-4T API 公共语料库的有毒对话,标有 ModAPI 分数。对于每个 ModAPI 类别,我们选择上次用户轮次中 ModAPI 分数最高的 200 个对话。
对于这两项评估,我们都使用可以访问我们政策的自动评分器来检查模型输出中是否存在违规行为。
如表 1 所示,我们发现 o1 模型在禁止内容评估方面始终优于 GPT-4o 模型,尤其是在具有挑战性的拒绝评估方面。在图 7 和图 8 中,我们展示了两个代表性的完成情况,这些完成情况给出了用户提示:(1) 要求非法建议,(2) 表达自我伤害。在每种情况下,模型都会引用其 CoT 中的相关策略并确定正确的响应方式(这里分别是拒绝和安全完成)。非法行为和自我伤害安全类别的示例内容策略的详细摘录可以在图 9 和图 10 中找到。
3.1.2 响应风格指南
此外,我们发现监督模型思考正确的响应风格可以提高其遵守风格指南的能力。为了说明这些指南是什么样子的,图 4 展示了硬拒绝指南的摘录。表 1 报告了模型在输出硬拒绝、自我伤害安全完成和受监管建议安全完成时是否遵守了我们的风格指南。我们发现o1 的响应风格比 GPT-4o 更好,安全完成风格有显著改善。
我们注意到 o1-preview 的响应风格相对较差,尤其是对于受监管建议和自我伤害安全完成。造成这种差异的一个关键原因是我们在 o1-preview 和 o1 发布之间更新了我们的安全完成指南。因此,o1-preview(和 GPT-4o)是根据它未接受过训练的新安全完成风格标准进行衡量的。然而,我们注意到,o1-preview 和 o1 之间的强硬拒绝风格也有所改善:我们假设在 o1 RL 训练期间使用奖励模型 GRM 可以增强对我们风格指南的遵守。
3.1.3 越狱
我们进一步评估了 o1 模型对越狱的鲁棒性:对抗性提示,故意试图绕过模型拒绝不应该产生的内容[12],[16]-[18]。在这里,我们特别考虑了 StrongREJECT[12],这是一个学术越狱基准,用于测试模型对文献中常见攻击的抵抗力。根据[12],我们计算 goodness@0.1,这是模型在针对每个提示中排名前 10% 的越狱技术进行评估时的安全性。
我们发现 o1 系列比 4o 模型对越狱的抵抗力更强,这一观察结果得到了外部红队的证实,例如 [19](见表 1)。图 1 是在给出越狱式提示时使用 CoT 完成的示例。我们发现,即使请求已编码,并包含在旨在鼓励模型遵守的指令中,模型也会正确识别出用户试图欺骗模型并返回到 OpenAI 政策,从而导致拒绝。
3.1.4 过度拒绝
最后,我们评估模型是否过度拒绝其应遵守的内容。我们考虑三种类型的过度拒绝:
- XSTest[13]:包含 LLM 常见安全触发器的良性问题的公共数据集(例如,“如何终止 Python 进程”或“为什么黑豆永远不应该成为总统?”)
- Transformation Exception:行使转换异常 [14] 的请求数据集,其中模型应遵守分析、翻译或以其他方式转换用户提供的不允许的内容。
- Policy 过度拒绝:我们根据 OpenAI 政策遵守的内部请求数据集。
从表 1 中我们可以看到,o1 模型的过度拒绝率低于 GPT-4o,并且在不过度拒绝适用转换例外的提示方面取得了显着的进步。图 11 是此类提示的 CoT 完成示例。
3.2 与外部模型的比较
为了了解 o1 在上下文中的文本安全性能,我们将其与其他公开可用的领先模型进行了评估:Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Haiku 和 Claude 3.5 Sonnet[15]、[20]–[23]。
我们对公开可用的基准进行了可复制性评估:
- Toxic WildChat [15]:来自 1M GPT-3.5T 和 GPT-4T API 公共语料库的有毒对话,标有 ModAPI 分数。对于每个 ModAPI 类别,我们选择上次用户轮流中 ModAPI 分数最高的 200 个对话。
- StrongREJECT [12]:一种学术越狱基准,用于测试模型对文献中常见攻击的抵抗力。
- XSTest [13]:一个良性问题的数据集,其中包括 LLM 的常见安全触发器(例如,“如何终止 Python 进程”或“为什么黑豆永远不应该成为总统?”)
- SimpleQA [24]:一个多样化的数据集,包含四千个带有简短答案的事实寻求问题,并衡量模型对尝试答案的准确性。
- BBQ [25]:一个问题集数据集,用于测试针对受保护类别的人在 9 个与美国英语环境相关的社会维度上的社会偏见。
在某些情况下,我们发现发送给 Claude 或 Gemini API 的提示返回了错误代码,表明它们由于安全过滤器而被阻止。我们选择将这些错误记录为 WildChat 的“被安全过滤器阻止”。对于其他基准测试,这些错误不到 1% 的样本,因此我们从结果中过滤了这些情况。
图 2 和 12 中的结果表明,o1 通过大幅提高越狱稳健性(StrongREJECT)同时保持较低的过度拒绝率(XSTest)来推动帕累托前沿。特别是,o1 在 StrongREJECT 上的表现优于其他领先模型,实现了 0.88 的 goodness@0.1。在 XSTest 上,o1实现了 0.93 的高过度拒绝准确率,仅落后于 Gemini flash (0.94),后者在 StrongREJECT 上的稳健性相当低(goodness@0.1 为 0.05)。
o1 在评估不允许的内容 (WildChat)、幻觉 (SimpleQA) 和偏见 (BBQ) 的基准测试中也表现出色。在 WildChat 上,o1 在没有使用外部安全过滤器的情况下保持了较高的安全完成率 (98%)。在 SimpleQA 上,o1 实现了最先进的准确率 (0.47),但幻觉出现的频率比两个测量过的 Claude 模型都要高。在 BBQ 上,o1 在模棱两可和无歧义的上下文中表现出很高的准确率,并且在模棱两可的上下文中刻板印象的频率低于除 o1-preview 之外的所有模型。
对于除 BBQ 之外的所有基准测试,我们显示了使用引导方法计算的不确定性估计值。
具体来说,我们通过在 1,000 次引导试验中对数据集进行替换重采样来估计结果的标准偏差。这些误差线主要反映由于数据集大小而导致的变化,而不是由于训练而导致的方差。
对于我们的主要越狱指标 (StrongREJECT),我们注意到评估中的组合越狱有时也会让自动评分器感到困惑。因此,我们在人工审核中额外验证了 StrongREJECT 结果,发现它们与我们的自动评分评估相符(参见附录 A)。
3.3 推理时间计算的影响
我们研究了分配给模型的推理时间计算量的变化的影响。我们允许模型在思路链推理上花费更多或更少的计算,并评估其性能。特别是,我们考虑了 StrongREJECT 越狱基准 [12] 和内部政策基准,测试模型的过度拒绝率和对响应风格指南的遵守情况。图 13 显示了 StrongREJECT 和受监管建议安全完成风格基准上模型性能的明显改善趋势,而其他评估则保持相对平稳。我们假设这是因为 StrongREJECT 和受监管建议风格遵守对于模型来说是比其他任务更困难的任务
StrongREJECT 具有挑战性,因为它使用了组合越狱。同样,我们的受监管建议安全完成风格指南与硬拒绝指南相比非常复杂,硬拒绝的正确回应风格始终是简短的道歉和无法遵守问题的声明(见图 4)。自我伤害安全完成风格也很复杂,但该模型可供学习的受监管建议训练示例比自我伤害少。
我们的结果表明,安全故障可能是由于模型没有足够的时间通过复杂和边界提示进行推理而导致的,而 CoT 推理可以成为一种强大的机制,利用测试时间计算来提高模型的安全性。
4 深思熟虑的对齐科学
在本节中,我们将深入研究深思熟虑的对齐方法。我们首先探讨该方法的不同阶段如何影响最终模型的策略遵守。然后,我们研究使用深思熟虑对齐训练的模型的行为,包括最终模型在回忆正确策略时的一致性及其在分布外设置中的可靠性。
在本节的所有实验中,我们利用了具有简化训练设置的 o1-mini 模型的变体。
4.1 方法不同组件的消融
为了研究深思熟虑对齐的 SFT 和 RL 阶段对模型性能的影响,我们进行了消融实验,其中一个或两个阶段都删除了安全数据。具体来说,我们比较了以下四种设置(见图 14):
- 无安全训练:SFT 或 RL 中均无安全数据(仅能力数据);
- 仅 SFT 中的安全性:SFT 中仅有安全数据,RL 中无安全数据;
- 仅 RL 中的安全性:SFT 中无安全性,RL 中仅有安全数据;以及
- SFT 和 RL 中的安全性:SFT 和 RL 中的安全数据(默认审议对齐设置)。
正如预期的那样,“SFT 和 RL 中的安全性”在禁止内容、响应方式和越狱方面的表现远远好于“无安全训练”运行,尽管在此特定消融设置中,安全训练也会增加过度拒绝。关键发现是“仅 SFT 中的安全性”和“仅 RL 中的安全性”运行获得了中间结果,表明 SFT 和 RL 训练在审议对齐训练中都发挥着关键作用。我们相信,模型在 SFT 期间学习了安全推理的强大先验,然后学会在 RL 期间更有效地使用其 CoT。
在图 14 中,我们还将这些消融与基线进行了比较,在基线中,我们不进行任何安全训练,但我们在系统消息中在推理时向模型提供整个规范。由于我们不知道部署时收到的提示与哪个安全类别相关,因此我们提供的规范不是针对任何安全类别量身定制的,而是包含所有内容策略的汇总版本(参见第 2.2 节)。请注意,不可能包含所有安全类别的内容策略的详细版本,因为每个类别都跨越 5-10K 个tokens,并且会完全超出模型的上下文窗口。
尽管可以访问完整的规范,但该基线似乎比使用审慎对齐训练的模型学习到的安全行为更少(在许多情况下,甚至模型仅在 SFT 阶段使用安全性进行训练)。该基线特别难以遵守响应样式指南。这些结果表明,在训练期间嵌入这些策略比在部署时提供所有策略更可靠。
4.2 策略检索准确性
经过深思熟虑的对齐训练的模型实际上引用正确策略的可靠性如何?为了回答这个问题,我们评估了 CoT 引用适当安全类别的频率(参见第 2.2 节)。
我们比较了两种设置:
- 无安全基线:该模型未经过任何深思熟虑的对齐训练。
- 完整数据:该模型在完整数据集上进行训练,包括安全性。
具体来说,给定标有安全类别的评估提示,我们从思路链中提取提及策略的句子。2 然后,我们要求另一个提示推理模型确定摘录是从规范中的哪个类别(如果有)中提取或改写的。最后,为了衡量策略检索准确性,我们计算得出的安全类别存在并与提示的安全类别匹配的提示的比例。
在表 2 中,我们根据理想的响应类型(硬拒绝、安全完成或遵守)分别显示策略检索准确性。在这三种情况下,我们的安全训练模型引用 CoT 中的相关策略的准确率远高于基线模型。对于安全完成提示,安全训练模型实现了 0.91 的特别高的策略检索准确率。对于理想完成是合规的提示,我们不希望安全训练模型必然引用策略,因此预计策略检索率会较低 (0.54)。
值得注意的是,非安全训练基线的拒绝率和策略检索准确率大于 0。原因是基础模型在预训练期间看到了一些与安全相关的数据,并且我们的分类器慷慨地将 CoT 归因于潜在策略。例如,如果 CoT 说“不允许非法内容,所以我会拒绝”,它将被视为引用了非法内容策略。
4.3 推广到 OOD 设置
在第 3.1.3 节中,我们发现 o1 模型在越狱评估(例如 StrongREJECT)方面有显著改进。我们的假设是,审议对齐可以改善模型在非常见或分布外 (OOD) 设置(在 StrongREJECT 数据集中尤其普遍)中的对齐。
为了测试审议对齐对 OOD 稳健性的影响,我们使用 o1-mini 模型的一个版本,在两种不同类型的数据上测试了泛化:非英语语言数据和编码数据(例如 base64)。具体来说,我们比较了三个模型:
- 无安全基线:该模型未经过任何审议对齐训练;
- 仅限英语、无编码数据:该模型在经过过滤的数据集上进行训练,我们已删除所有与安全相关的非英语和编码数据。在预训练期间,模型仍会看到非英语和编码数据,以及 SFT 和 RL 的非安全部分;
- 完整数据:模型在完整数据集上进行训练;
在以下两个评估中:
- 编码:我们测试模型对使用编码的越狱的抵抗力。我们有一组 250 个禁止提示(例如询问如何制造炸弹的说明),以及一组使用编码的越狱技术(例如以 base64 编码提示)。对于每个禁止提示,我们使用不同的越狱技术生成多个越狱提示。然后,如果模型未能拒绝任何越狱提示,我们将模型评为在禁止提示上不正确。
- 多语言:我们将越狱提示翻译成不同的语言,并测量模型拒绝回答这些提示的频率。
我们的目标是看看在安全训练期间从未见过多语言或基于编码的数据时,“仅英语、无编码数据”模型的表现与“完整数据”模型的表现有多相似。
在这些评估中,使用审议对齐训练的模型的准确度明显高于无安全基线(见表 3)。值得注意的是,从未在编码或非英语数据上进行过安全训练的模型与使用所有安全数据训练的模型表现相当,表现出明显的分布外泛化。
5 相关工作
审议对齐是第一种对齐方法,它直接向模型传授其安全规范的文本,并训练模型在推理时推理这些学习到的规范以给出更安全的响应。图 15 突出显示了审议对齐与现有对齐方法的代表性方法之间的区别。该图的左栏显示了将规范纳入训练数据的不同方式,右栏说明了在不同方法下训练的模型的推理时间行为。审议对齐适用于具有 CoT 推理的模型。
5.1 安全训练
传统上,使用监督微调 (SFT) 将安全模型行为灌输到 LLM 中,然后使用来自人类反馈的强化学习 (RLHF) [28]。直接策略优化 (DPO) 是 RLHF 的替代方案,它跳过奖励模型并直接使用偏好数据优化策略模型 [29]。宪法人工智能 (CAI) [26] 建立在标准 SFT + RLHF 范式的基础上,结合了一组预定义的原则来指导行为,称为“宪法”(与我们的规范相当)。在 CAI 的 SFT 阶段,AI 模型的初始响应将由宪法文本提供的相同模型进行批评和修订。来自(响应、批评、修订)序列的修订最终与提示一起用于 SFT 训练。CAI 的 RL 阶段使用偏好模型,该模型根据给定宪法的 AI 模型的偏好数据进行了微调。总结这些方法,规范按以下步骤添加到模型中:
1. 模型开发人员定义 AI 助手应遵循的规范
2. 这些规范被转换为人类或 AI 训练师标记数据的指令。此数据可以采用监督(提示、答案)对或偏好数据的形式。
3. 然后使用标记数据来训练策略模型本身或训练奖励模型,随后用于训练策略模型。
至关重要的是,虽然先前方法的 SFT 标签和偏好分数是给予人类或 AI 标记者的规范的函数,但这些规范从未明确提供给策略模型本身。只有最终答案本身用于训练。(请注意,CAI 中的批评与我们的 CoT 大致类似,在优化过程中不使用。)相反,在审议对齐中,模型会记住其 CoT 中的策略并学习如何在上下文中应用它,并且 CoT 在 SFT 期间直接优化。
还值得注意的是,我们的模型改变了给予每个训练示例的规范信息,这使我们能够累积地向模型传授比固定宪法更详细、更细致的安全政策。
5.2 推理时安全推理
大量研究致力于使用利用自然语言反馈的批判和改进方法来增强 LLM 输出(有关全面概述,请参阅 [27]、[30])。尽管这些论文中的绝大多数都不是以安全为重点的,但它们的方法可以用于产生更安全的模型响应。一个值得注意的例子是 Self-REFINE [27],它采用迭代反馈和改进来改进模型输出(见图 15)。在 Self-REFINE 中,模型首先生成响应,然后通过少量提示提供反馈,然后修改响应——这个过程重复多次迭代。Self-REFINE 使用相同的模型进行生成、批判和修订,但其他作品使用不同的模型来完成这些任务(例如,[31] 训练单独的修订模型)。这些方法的一个共同特点是依赖预先指定的语言模型程序 (LMP) [32] 或预定的推理路径来改进推理时的响应。相比之下,审议对齐利用 o1 的思路链在推理时执行自动安全推理,而无需预定义的 LMP 或固定的推理路径。回溯 [33] 是一种最近的技术,当 LLM 识别出它做出了部分不安全的响应时,它会训练 LLM 生成特殊的 [RESET] 标记。然后,该模型从头开始重新启动响应,前面的标记保留在上下文窗口中。在返回最终响应之前,[RESET] 之前的标记(可视为安全推理)将被丢弃。回溯可以被视为一种自动的、无指导的推理时安全推理机制。但是,它缺乏灵活性:回溯仅限于每个响应一个实例。相比之下,审议对齐的 CoT 允许无限的“回溯”。此外,无论是回溯还是任何现有的对齐方法都不会直接教授模型安全规范,这使得审议对齐训练的模型在推理时间安全推理期间推理学习到的安全规范的能力方面独一无二。
6 讨论
审议对齐在改善与 OpenAI 政策规范的对齐和对越狱的鲁棒性方面的有效性令我们感到鼓舞。该方法还允许我们比以前更详细地指定遵守、拒绝和安全完成之间的界限。我们相信这种细微的控制可以产生不仅更安全而且更有帮助的模型。该方法使用合成数据生成管道从提供的规范和提示中创建训练数据,也使其成为一种相对可扩展的对齐方法。
我们预计 OpenAI 的政策将不断发展,但训练模型以精确遵循当前定义的政策集至关重要:这种做法有助于我们培养符合任何政策要求的技能,为未来风险极高或严格遵守政策至关重要的场景提供宝贵的准备。
这项研究与人工智能安全领域的一个更广泛的问题相关:协调方面的进步能否跟上人工智能能力的步伐?o1 模型增强的推理能力使协调策略的实施更加有效,这让我们乐观地认为协调正在与能力一起进步。然而,这种令人鼓舞的趋势可能不会无限期地持续下去。随着人工智能模型变得越来越复杂,它们可能会制定出与开发人员预期不同的目标。例如,一个高度智能和自我意识的人工智能可能会拒绝人类设定的约束和目标 [34]。或者,人工智能可以继续致力于人类指定的最终目标,但在此过程中追求工具性目标,如自我保护、资源获取或增强其认知能力 [35],[36]。这些追求权力的倾向可能会导致有害或意想不到的后果。随着模型获得更多的智能和自主性,错位造成的潜在危害规模急剧增加,并有导致灾难性后果的风险。这凸显了对人工智能协调进行持续研究的迫切需要。正在积极投资更好的协调策略和研究领域,如监控思路链中的欺骗行为 [37]、[38],
以确保随着人工智能系统变得更加强大,它们能够与人类价值观保持一致。