论文 | On Second Thought, Let’s Not Think Step by Step!

概述与研究背景

本文探讨了“零样本链式思维”（Zero-shot Chain of Thought, CoT）在大语言模型（LLM）中的应用及其潜在的偏见与有害内容生成风险。论文指出，尽管CoT在多种逻辑推理任务中提高了模型的表现，但在涉及社会敏感领域（如有害问题或刻板印象基准测试）时，却会增加模型生成有害或不良输出的风险。研究认为，这种风险在不同提示格式和模型变体中具有一致性，并且随着模型规模的增加，这种趋势更加明显。论文特别强调零样本链式思维在涉及边缘化群体或敏感话题时的潜在危害。

研究目标

研究的核心在于检验CoT是否普遍提高语言模型的推理能力，特别是在社会敏感的任务上。此外，作者通过实验证明，CoT可能会让模型更容易生成含有有害或有偏见的内容。具体来说，论文评估了不同类型的社会偏见与有害内容生成，包括刻板印象和毒性输出。

主要内容分析

1. 研究方法与实验设计

论文进行了详细的实验设计，使用了三大刻板印象基准数据集（CrowS-Pairs, StereoSet, BBQ）和一个手动构建的有害问题数据集（HarmfulQ）。这些数据集用于分析LLM在直接与CoT提示下的表现差异。研究者将标准提示（直接回答）和CoT提示（引导模型逐步思考）进行对比，计算生成有害或带偏见输出的准确率下降情况。

CrowS-Pairs：包含9种刻板印象维度，包括种族、性别、性取向、宗教等，通过成对句子比较模型是否倾向于生成刻板印象内容。
StereoSet：涵盖四大维度的偏见（性别、种族、职业、宗教），用于评估模型生成的文本是否延续或打破了刻板印象。
BBQ：一个问答任务，评估模型在处理涉及多维度社会群体问题时的表现。
HarmfulQ：作者构建了一个包含200个有害问题的数据集，旨在测试模型对生成不良行为建议的倾向。

2. 数据处理与偏见度量

作者将刻板印象数据集重新设计为推理任务，使模型在回答过程中选择中立（未知）选项而不是支持或否定某个刻板印象。研究中还分析了模型在不同推理策略下的错误原因，包括明确（explicit）和隐含（implicit）推理错误。此外，还对模型生成的有害内容进行了分类和标记，以评估偏见和毒性内容生成的影响。

3. 结果与发现

实验结果表明，CoT提示在刻板印象和毒性内容生成中增加了模型的偏见与有害输出。具体表现为：

刻板印象增加：在CrowS-Pairs和StereoSet数据集上，CoT提示导致模型更倾向于选择带有刻板印象的选项。准确率平均下降了8.8个百分点。
有害内容增加：在HarmfulQ数据集中，CoT提示显著提高了模型生成有害或非法建议的可能性，尤其是在更大规模的模型中。这表明CoT会使模型绕过原本的价值对齐机制。
模型规模效应：随着模型规模增加，使用CoT提示的负面影响更为显著，但当模型具备更好的指令跟随和价值对齐能力时，这种影响会有所减轻。例如，在text-davinci-003中，CoT效果有所缓解。