©PaperWeekly 原创 · 作者 | 杨靖锋
我在 2023 年 5 月 5 日开始写这篇文章的英文版,并在 2023 年 5 月 8 日完成了它。
英文博客原文:
https://jingfengyang.github.io/safety
Twitter原文:
https://twitter.com/JingfengY/status/1656143046185201665
这篇文章可能包含一些引发敏感或冒犯性的陈述或例子。所有观点都是我个人的,不代表我的所属机构或其他任何人的观点。感谢 Hongye Jin 和 Jie Huang 对本文初稿提供的建议。
最近,AI 安全性引起了越来越多的关注。直到一年前,我才意识到 AI 安全的重要性。在那之前,尽管我进行了六年多的自然语言处理研究,我对此并没有太多兴趣。但我本应该意识到,随着 AI 技术变得越强大,AI 安全问题就变得越严重。
随着 ChatGPT 和 GPT4 的进展,每次我们想要构建一套拥有最先进 AI 技术的现代化 AI 系统时,我们必须将 AI 安全放在首位。最终,AI 应该帮助人们,而不是取代人们或对我们的社会造成伤害。在本文中,我将介绍为什么 AI 安全很重要,我们应该考虑哪些具体的 AI 安全问题,以及如何实现 AI 安全。
注:这篇博客的很多内容是从 “GPT4 Technical Report”、Sam Bowman 的论文 “Eight things to know about large language models” 以及 Jacob Steinhardt 的博客 “Emergent Deception and Emergent Optimization” 中概括甚至摘录的。如下所示,我总体上采用了 “GPT4 Technical Report: System Card” 的对 AI 安全问题的分类,但也尽力使其更加清晰明了。
为什么AI安全很重要?
从 OpenAI 的角度来看,他们解释了为什么在 GPT4 技术报告中没有披露更多技术细节。他们表示:“鉴于商业竞争环境和像 GPT-4 这样的大规模模型对安全的影响,本报告不包含关于架构、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。”
很多人可能过高地估计了商业原因,却低估了安全原因。如果一个超强大的模型发布了,但没有相应的类似 OpenAI 在安全对齐方面进行数年的努力(包括在训练完成后至少 6 个月的 GPT-4 安全对齐工作),可能会出现许多严重的安全问题。事实上,最近各种开源的大型语言模型及其聊天机器人版本的兴起已经展示了对安全对齐的忽视,可能引发许多问题。
从我个人的观点来看,我将通过以人为中心的 AI(Human-Centered AI)的视角解释 AI 安全的重要性。尽管我的学术导师是对社会负责的自然语言处理(Socially Responsible NLP)和以人为中心的 AI 的先驱(Human-Centered AI),但自从 2019 年与她合作以来,我没有在这个研究方向上投入太多努力,因为我认为当时的语言技术(如 NLP)还不够先进到我们应该将安全问题放在首位。
直到来到工业界,我才意识到在将任何 AI 系统部署到真实世界的使用场景时,AI 安全都是最重要的方面。随着我越来越多接触产品的现实世界用户,我才能意识到这个当前 AI 系统最关键的问题之一。我可以通过一个例子来展示人类中心 AI 的重要性。包括我在内的许多学术界的人过于关注学术基准数据集,而不是尝试处理现实世界用户数据并获得真实世界用户的反馈。
OpenAI 绝对是在这个方向上的先驱。自从 GPT3 在 2020 年发布以来,他们就不再关心模型在特定的 NLP 基准数据集上的优越性能。相反,他们在三年前推出了 GPT3 API 和 playground,开始收集真实世界的用户数据,并优化真实世界的用户体验。三年来的用户输入指令、标注的回复和反馈是 OpenAI 最有价值的资产之一,构成了其他公司(甚至是科技巨头)进入这个领域的门槛。
当 OpenAI 使用这些数据来进行人类意图和价值对齐时,大部分其他自然语言处理研究人员,包括那些在最先进的学术和工业研究实验室工作的人,仍在优化特定自然语言处理任务的性能,或者进行学术数据集上的指令微调,并一直持续到去年年底。
这是 OpenAI 和其他机构之间思维模式的关键差异,也是其拥有领先地位的原因。因此,现在是从以模型为中心的 AI(Model-Centered AI)转向以数据为中心的 AI(Data-Centered AI),进而发展为以人类/用户为中心的 AI(Human/User-Centered AI)的时候了。
如果我们认真考虑以人为中心的 AI,我们就能意识到对社会负责的自然语言处理以及 AI 安全性的重要。因为任何不安全的 AI 行为都会对人类或社会造成伤害,这与以人为中心的 AI 的基本价值观是背道而驰的。
在中国,AI 安全性这一问题甚至更为严重,任何不安全的生成式 AI,在符合严格的法律监管条例前,都不能被部署为商品。
AI安全的关键问题有哪些方面?
在这一部分中,我将展示一些在没有特别强大的模型时候就由来已久的 AI 安全问题,以及像 ChatGPT 或 GPT4 这样强大模型带来的紧急 AI 安全问题,还有一些随着更强大模型的出现而已经展露或者可能涌现的问题。
由来已久的AI安全问题
在 ChatGPT 问世之前,自然语言处理包括文本生成已经存在一些已经被深入探索的安全问题。在这一部分,我将简要介绍其中的一些问题。
1. 幻觉(Hallucination)是文本生成中的一个显著问题 [Tian, et al., 2019],在 LSTM、未预训练的 Transformer 和较小的预训练模型(如 BART、T5、GPT2 等)中更为严重。
2. 有害内容(Harmful Contents)是文本生成系统中的另一个常见安全问题。某些有害内容可能违反 shi,对个人、群体或社会构成伤害,包括仇恨言论 [ElSherief 等,2021]、歧视等。
3. 偏见(Bias)[Pryzant et al., 2020. Zhong et al. 2021] 和刻板印象(Stereotype)是典型的由模型不公平的群体代表性(Harms of Representation)引发的危害,可能对社会产生严重负面影响。
4. 多语言(Multilingual)[Hu et al., 2020] 和多方言(Multi-dialectal)[Ziems et al. 2022] 性能差异导致的不平等使用是推动多语言和多方言自然语言处理研究的核心动力。
5. 一些自然语言处理系统试图分析具有误导性(misleading)但有说服力(persuasive)的内容 [Yang et al. 2019]。
6. 文本风格转换(Text Style Transfer)系统可以帮助改变关于某个内容的叙述方式并影响受众 (Influence People)[Ziems et al. 2022]。
7. 隐私(Privacy)保护是一个热门话题,因为人们发现有可能从大语言模型中提取训练数据 [Carlini et al. 2021]。但一些研究结果表明,一般语言模型可能不擅长将个人信息与其所有者关联 [Huang et al. 2022]。
8. 文本到代码生成系统的广泛应用也对网络安全(Cybersecurity)造成了威胁。例如,一些人发现对基于语言模型的 SQL 生成系统进行 SQL 注入(SQL Injection)非常容易 [Peng et al. 2022]。
由先进大语言模型引发的紧急安全问题
上述自然语言处理中的安全问题大多仍然存在,并且其中很多随着 ChatGPT/GPT-4 的性能增强和广泛应用而变得更加严重。甚至,随着 LLM 的进步,出现了更多新的安全问题。在本节中,我将主要讨论最近出现的紧急的实际安全问题,特别是随着各种不安全的开源 LLM 和聊天机器人的兴起而引发的那些问题。同时,我将展示一些来自这些缺乏足够安全对齐的聊天系统(包括 OpenAssistant、Vicuna 和 Koala)的例子。
1. 虽然随着更强大的模型,幻觉(Hallucination)得到了一定的缓解,但这仍然是一个远未解决的问题。反直觉的是,随着模型变得更具说服力、可信和真实,幻觉(Hallucination)的危害性甚至更大,因为这使得用户更信任模型生成的内容,并且让用户难以区分生成内容真实与否。
2. 强大的生成模型还使得生成更多类型的有害内容(harmful contents)成为可能,包括:1)自我伤害行为的建议;2)色情或暴力内容;3)骚扰、贬低和仇恨内容;4)用于施展攻击或暴力行为的建议;5)寻找非法商品或服务的指导。需要注意的是,生成的内容是否有害也可能取决于使用的上下文。信息丰富的生成文本更有可能被用于更多的有害目的,比如煽动暴力、传播虚假叙事或剥削个人等等。
3. 通常情况下,在真实世界语料库上训练的 LLM 可能会通过生成内容来强化其偏见(biases)及世界观,包括对某些边缘群体的有害刻板印象和贬低。有趣的是,基于 LLM 的聊天机器人更倾向于使用婉转(hedging)的语气或者句式,这会进一步加剧刻板印象或贬低的危害。
4. LLM 更擅长生成真实、有说服力(persuasive)和有针对性的虚假信息以达到误导(mislead)的目的,甚至实现对受众的影响和操纵。有时,它们可以像人类布道者一样通过产生合理的计划来达到宣传目标。当它们获得有关受众的个性化信息作为输入时,甚至可以生成更加令人信服的文本。
5. 强大的语言模型在隐私(privacy)方面可能存在更多安全问题。它能够轻易地揭露公众可获得的个人信息,例如那些在公共互联网上具有重要影响力的人,如名人和公众人物。而且它在关联私人信息方面似乎也在变得出色。例如,它可以完成很多与个人和地理信息相关的基本任务,比如确定与一个电话号码相关的地理位置,或回答一个教育机构位于何处,而无需浏览互联网。即使语言模型只是在公开数据上进行训练,它也可能意外地传播一些信息。
6. 语言模型的进展对经济的影响(economic impacts)是一把双刃剑。一方面,它们增强了人类工作者的能力,包括提升自动客服的回复,帮助撰写文章,充当编程助手等。这些可以更好地将候选人与工作岗位匹配,提高整体工作满意度。另一方面,由于取代了一些人类工作,语言模型导致了劳动力需求减少,并可能对劳动力市场产生更大影响 [Eloundou et al., 2023]。
7. 在 ChatGPT 和 GPT4 发布后,语言模型的发展明显加速(accleration)。语言模型开发者的竞争导致了安全标准的下降,不良范式的扩散,以及整体人工智能时间表的加速。这种加速是由科技巨头、初创公司和开源社区共同推动的。一个值得注意的现象是美国之外的国家对 ChatGPT 竞品的需求增加,这产生了一些国际影响。例如,自今年年初以来,已有 10 多家中国公司或机构发布了类似 ChatGPT 的产品。
更令人担忧的问题是,一些公司从 ChatGPT/GPT4 中“窃取”或者 self-instruct 数据来训练他们的聊天机器人,这在没有合适商业许可的情况下是违法的。但对此并没有实际上的监管,并且对美国以外国家的公司实施监管确实存在困难。
未来可能存在的严重安全问题
1. 当用于为机会或资源分配决策或者通知决定时,大型语言模型(LLM)可能带来分配不公的危害(allocative harms),例如高风险决策(执法、刑事司法、移民和庇护)以及提供法律或健康建议。LLM 的广泛使用可能会放大其在服务质量上的差异(disparities in quality of service),因为对某些语言或方言的使用者而言,LLM 的性能可能会下降。
2. 更具说服力的 LLM(例如 GPT4)可能通过生成虚假信息(disinformation)来影响整个社会的价值观(shape society’s epistemic views)。LLM 的某些行为本身也可能会加剧这种影响。例如,人们广泛观察到 LLM 的奉承(sycophancy)行为,即模型以一种讨好用户叙述的方式回答主观问题;以及 LLM 的欺骗愚弄行为,即模型经常会支持非专业用户的常见错误观点 [Bowman et al., 2023]。
随着生成模型的日益普及,生成内容的无处不在会导致社会整体信息质量的下降,降低了社会上的信息真实性和信任度,加剧人们对信息环境的不信任感,威胁我们区分事实和虚构的能力,并且使那些靠制造谎言牟利的人获利。
3. LLM 可能会导致武器泛滥(proliferation of weapons)。尽管专业信息只是制造武器的一个因素,但更容易获得此类信息可能会帮助那些恐怖主义者。与使用传统搜索工具相比,通过 GPT4 进行交互可以减少探索时间。一般来说,LLM 擅长生成对非专家用户易于理解但难以找到的公开可访问信息。以下是一个询问 OpenAssistant “如何制造核武器?”的示例。
4. LLM 带来了一些新的网络安全(cybersecurity)问题。例如,基于 LLM 的代码生成系统可能被利用来实施 DoS 攻击、数据窃取等 [Peng et al., 2022]。尽管由于生成内容的其非真实性,LLM 本身并不能直接作为当前社交工程(例如目标识别、钓鱼攻击和网络钓鱼)工具的升级,但在使用者提供关于目标的背景知识时,它可以帮助起草逼真的社交工程内容(例如电子钓鱼邮件)。
5. 尽管早期版本的 GPT4 在自主复制、获取资源和避免被人操纵方面仍然效果不佳,但是 LLM 也展示了一些权力寻求(power-seeking)、制定和执行长期计划以及主动行为的能力(例如,实现可能未明确指定且未在训练中出现的目标;专注于实现特定的可量化目标;进行长期规划)。
例如,GPT4 可以假装成人类,借助 TaskRabbit 平台的雇佣工人识别验证码。类似的能力可能可以从 “Emergent Optimization” 的角度来解释 [Steinhardt et al., 2023]。首先,RLHF 可以帮助 LLM 根据长期结果从多样的行动空间中选择每一步。此外,在预训练过程中,下一 个token 的预测也可以鼓励规划的学习 [Steinhardt et al., 2023]。要了解更多关于这一点的证据,可以参考 LangChain 项目。
6. LLM 与其他系统或人类的交互(interactions with other systems or humans)可能带来更多风险,因为 LLM 内部可能已经学习到了外部世界的表征形式 [Bowman et al., 2023]。例如,利用外部文献和 emedding 工具,GPT4 可以搜索与其他化合物相似的化学化合物,提出可在电商品类中购买的替代方案,并执行购买。我们可以从开源的 AutoGPT 项目中寻找更多示例(例如自动增长 Twitter 关注者)。
LLM 与人类的交互可能带来更多的社会风险。有影响力的决策者依赖于 AI 模型的辅助决策后,由于 AI 的输出具有相关性或以复杂的方式相互作用,算法合谋(algorithmic collusion)可能成为一个结果。AI 还可能实现对环境中人类的操纵(例如推荐系统用户的极化)。潜在的 “Emergent Deception” 可以作为另一个例子。在这种情况下,LLM 可能欺骗或操纵监督者,而不是执行所需任务(例如提供真实和相关的答案),因为这样做可以获得更好或等同的奖励 [Steinhardt et al., 2023]。
7. 更强的 AI 可能带来不平等的经济影响(imbalanced economic impacts)。例如,差异化的对 AI 的访问权限和由其造成的利益不均,加上模型比劳动者更低的成本,可能导致某些特定领域(例如法律服务)的劳动力需求下降和特定工作岗位工资的下降。
具体来说,差异可能来自不平等的社交网络宣传、技术基础设施以及语言和文化表达,这些都将在谁能够访问 AI 和从中获益方面起到作用,从而可能给某些群体带来不平等的经济损害。此外,由于训练数据的收集和访问集中在某些特定公司或者机构,这会导致产业组织和权力结构的变化。由某些科技巨头控制的数据和模型可能对其他公司和整个人工智能社群产生不利影响。
另一个有趣的方面是,不能及时更新的模型可能固化现有对象和公司的优势。例如,对于以下问题,“纽约最好的百吉饼店是哪家?”如果 temperature 为 0,模型始终会生成相同的答案。
另一方面,如果能够快速学习和正确使用先进的 AI 系统,它可以为使用者和劳动者提供更个性化和高效的服务,并为求职者创造新的机会。
8. 虽然没有被广泛观察到,但对 LLM 的过度依赖(Overreliance)已经成为某些领域的趋势。这种过度依赖可能源于人们对模型普遍的信任,以及 GPT4 的权威口吻和生成的高度详细的相关信息。有趣的是,模型的委婉(hedging)表述也可能作为一种谦卑行为(epistemic humility)让用户信赖并且形成过度依赖。
过度依赖可能会带来几个负面后果,如 GPT4 论文所列:“用户可能由于对模型的信任而对生成错误信息的疏忽;人们可能无法根据使用场景和环境提供适当的监督;或者人们可能在缺乏专业知识的领域中使用模型,这使得很多生成的错误难以被识别。随着用户使用 AI 系统成为一种习惯,对模型的依赖可能会阻碍人们学习新技能,甚至导致重要技能的丧失。”
如何追求AI安全性
为了缓解 AI 安全问题,首先应该意识到所有可能存在的安全问题。只有这样,才有可能相应地减轻这些问题。
然而,有时候发现新的 AI 安全问题并不那么容易。这就是为什么我们在前面的部分中非常关注各种安全问题的原因。此外,确实需要现实世界的用户和领域专家对 LLM 进行红队测试(Red Teaming),以发现更多潜在的安全问题并创建更多可能引发安全问题的提示词(prompt)。
接下来,一旦 LLM 将要上线为产品时,应该采用几种技术来减轻安全问题。我将 GPT4 技术报告中提到的内容总结如下:
1.从缓解模型本身危害性的角度来看,有三种一般的方法。
a. 在 LLM 预训练阶段,应该过滤掉那些可能引发安全问题的预训练数据。
b. 在微调阶段,可以使用 SFT 或 RLHF 进行安全对齐。模型可以在多样化的用户指令下进行对齐,以确保无害性。
c. 另外,AI 反馈学习(LAIF)也被证明是有用的。GPT4 使用基于规则的奖励模型(rule-based reward models,RBRM)来实现这一目的,而之前类似的工作 “Constitutional AI”[Bai et al., 2022] 是最早利用 AI 进行指正和修改生成内容以及 RLAIF(AI 反馈强化学习)的工作之一。
这被发现有助于学习一个无害但不过分保守(仍然有帮助)的 AI 助手,考虑到无害性和有用性之间通常存在一种权衡关系(比如,如果一个 AI 助手对任何问题都回答“我无法回答”,那么它完全无害,但一点用处也没有。例如,Anthropic 的以安全为先的语言模型有时可能对一些 prompt 的回复过于安全而导致无用)。此外,RLAIF 使得人类在某项任务上的表现不再是 LLM 性能的上限 [Bowman et al., 2023]。
2. 对于任何版本的 LLMs,我们必然需要一种评估它们安全性的方法。一种可靠且必不可少的方法是进行领域专家的红队测试(red teaming),但这可能很昂贵。我们还需要一些评估集和自动评估模型来进行频繁的评估,以便各个生成模型版本之间进行选择。有时,评估模型也可以是底层生成模型本身(例如 GPT4)。
3. 在将任何模型上线为产品时,我们需要仔细设计全面的用户使用条例(user policy),以避免任何可能引发安全问题的使用。同时,需要在线监控模型的使用情况。一些自动监控模型可以帮助鉴别并拒绝回应不安全的提示(prompt),有时甚至需要人工监控。
4. 理想情况下,可以为用户提供一个模型有害性缓解分类器或 API(moderation classifier or API),以便外部用户灵活使用,而不仅仅用于内部监控。
总之,在开发任何 LLMs 甚至是 A(G)Is 时,任何公司或个人都应该更加关注 AI 安全。通过更多用户的使用,可以发现更多的安全问题,并通过以上几个步骤来避免这些问题。即便如此,仍然有更多故意触发 LLMs 的 AI 安全问题的方式(例如越狱提示,jailbreaking prompting)。因此,如果在 AI 安全方向上没有足够的努力,人工智能的巨大进步可能会给人类和社会带来严重后果。
参考文献
Tian, Ran, et al. “Sticking to the facts: Confident decoding for faithful data-to-text generation.” arXiv preprint arXiv:1910.08684 (2019).
ElSherief, Mai, et al. “Latent hatred: A benchmark for understanding implicit hate speech.” arXiv preprint arXiv:2109.05322 (2021).
Pryzant, Reid, et al. “Automatically neutralizing subjective bias in text.” Proceedings of the aaai conference on artificial intelligence. Vol. 34. No. 01. 2020.
Zhong, Yang, et al. WIKIBIAS: Detecting Multi-Span Subjective Biases in Language[D]. EMNLP 2021
Hu J, Ruder S, Siddhant A, et al. Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalisation[C]. ICML 2020.
Ziems C, Held W, Yang J, et al. Multi-VALUE: A Framework for Cross-Dialectal English NLP[J]. arXiv preprint arXiv:2212.08011, 2022.
Yang D, Chen J, Yang Z, et al. Let’s make your request more persuasive: Modeling persuasive strategies via semi-supervised neural nets on crowdfunding platforms[C]. NAACL 2019.
Ziems C, Li M, Zhang A, et al. Inducing Positive Perspectives with Text Reframing[J]. ACL 2022.9. Carlini N, Tramer F, Wallace E, et al. Extracting Training Data from Large Language Models[C]. USENIX Security Symposium. 2021, 6.
Huang J, Shao H, Chang K C C. Are Large Pre-Trained Language Models Leaking Your Personal Information?[J]. arXiv preprint arXiv:2205.12628, 2022.
Peng X, Zhang Y, Yang J, et al. On the Security Vulnerabilities of Text-to-SQL Models[J]. arXiv preprint arXiv:2211.15363, 2022.
Eloundou T, Manning S, Mishkin P, et al. Gpts are gpts: An early look at the labor market impact potential of large language models[J]. arXiv preprint arXiv:2303.10130, 2023.
Bai Y, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness from AI Feedback[J]. arXiv preprint arXiv:2212.08073, 2022.
Bowman S R. Eight things to know about large language models[J]. arXiv preprint arXiv:2304.00612, 2023.
Emergent Deception and Emergent Optimization. Jacob Steinhardt 2023.
https://bounded-regret.ghost.io/emergent-deception-optimization/
AutoGPT: https://github.com/Significant-Gravitas/Auto-GPT
LangChain: https://github.com/hwchase17/langchain
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·