论文 | The Capacity for Moral Self-Correction in LargeLanguage Models

概述

论文探讨了大规模语言模型是否具备“道德自我校正”的能力，即在收到相应指令时避免产生有害或偏见输出的能力。研究发现，当模型参数达到一定规模（至少22B参数）并经过人类反馈强化学习（RLHF）训练后，这种自我校正能力显现，并随着模型规模的增加和RLHF训练的加强而提高。论文通过多项实验检验这一假设，揭示了模型在不同干预下的偏见和歧视程度。

1. 研究背景与动机

模型偏见问题：大规模语言模型普遍存在社会偏见，如性别、种族和社会经济地位偏见。随着模型规模的扩大，这些问题可能加剧，但模型的任务表现也同时提升。这引发了一个疑问：模型规模的增加是否也会提高其纠正偏见的能力？
研究目标：验证大规模语言模型是否能够通过指令实现道德自我校正，避免产生偏见输出，并分析RLHF训练的效果。

2. 实验设计

论文通过三个实验研究模型的道德自我校正能力：

BBQ偏见基准测试：测量模型在九个社会维度（如年龄、性别、种族等）上的刻板印象程度。
Winogender实验：测试模型在职业相关的性别代词指代中的偏见，并验证模型是否能匹配真实世界的职业性别统计数据或完全去性别化。
法律学院招生实验：评估模型在法律课程招生场景中的种族歧视倾向，分析其能否在收到指令时实现种族平权。

实验条件

每个实验包括三个主要条件：

基本问题（Q）：直接询问模型问题，无偏见校正指令。
指令跟随（Q+IF）：要求模型给出无偏见的回答。
连锁思维（Q+IF+CoT）：让模型先进行无偏见的思维过程描述，然后回答问题。

3. 主要发现

偏见与模型规模的关系：在BBQ实验中，模型参数大于22B时，偏见程度显著下降，尤其在Q+IF+CoT条件下，偏见减少了84%。Winogender实验中，模型能够选择性使用性别中立的代词或精确匹配职业性别统计数据。
RLHF训练的效果：增加RLHF训练步骤进一步减少了偏见，尤其是在Q+IF和Q+IF+CoT条件下。这表明模型越容易跟随指令，越能实现偏见减少。
种族平权实现：在法律学院招生实验中，较大的模型在特定RLHF训练下可以实现种族平权，甚至有时会倾向于历史上被歧视的群体。