Abstract
本文旨在概述与ChatGPT相关的不同类型的安全风险,包括恶意文本和代码生成、私人数据泄露、欺诈服务、信息收集和产生不道德的内容。
I. Introduction
在处理与大型语言模型相关的特定安全风险的研究中仍然存在空白。
编辑
图1. ChatGPT安全风险的说明性概述。
由图可得,持续监控和评估ChatGPT的安全漏洞并制定适当的措施来减轻它们是至关重要的。
本文旨在概述与ChatGPT相关的不同类型的安全风险,并讨论这些风险可能产生的后果。与ChatGPT相关的主要问题之一是产生恶意、攻击性和通常有偏见的输出的道德层面。在本文中表明,尽管不断努力构建一个合乎道德和安全使用的会话人工智能系统,但仍然存在使ChatGPT生成不适当内容的方法。本文为正在进行的关于大语言模型的伦理和安全影响的讨论做出了贡献,并强调了在这一领域继续研究的必要性。具体而言,本文做出了以下贡献:
•提供了文献中报道的与ChatGPT相关的安全风险摘要。
•一项实证研究,检查ChatGPT的内容过滤器的有效性和可能的方法来绕过他们提出。它表明,即使在安全措施到位的情况下,大语言模型仍然存在伦理影响和安全风险。
•论文提供了安全影响的定性分析,并讨论了减轻这些影响的可能策略。这一分析强调了这些风险的潜在后果,旨在告知政策制定者、行业专业人士和研究人员,像ChatGPT这样的LLM所带来的复杂安全挑战。
II.EXPLORING CHATGPT’S SECURITY
本节探讨ChatGPT的安全风险和挑战,包括可能产生恶意内容和泄露私人数据。通过精心制作提示或参与会话角色扮演场景,用户可以有效地引导模型产生不期望的输出。
本节包括六个小节,每个小节关注ChatGPT安全性的一个特定方面:信息收集、恶意文本编写、恶意代码生成、泄露个人信息、欺诈服务和生成不道德内容。本文通过与ChatGPT3的实际交互示例来选择案例,以在实践中演示这些安全问题。
A. 信息收集
编辑切换为居中
ChatGPT的高级语言生成功能可以被恶意行为者利用来收集目标的信息。
B. 恶意文字撰写
ChatGPT生成恶意文本的可能性带来了重大的安全风险,因为它允许恶意活动的自动化,并可能加速该过程。
•网络钓鱼活动:ChatGPT可以被利用来制作网络钓鱼电子邮件和消息,以毫无戒心的受害者为目标,欺骗他们泄露敏感信息、凭据或安装恶意软件。这将增加发送量,并有可能制作更难被检测到的网络钓鱼电子邮件。它可以用来写一封完整的电子邮件,只给出一些细节,结果电子邮件包含的错误比网络钓鱼电子邮件通常包含的错误更少。
•虚假信息:恶意行为者可以使用ChatGPT生成虚假信息,包括假新闻文章、社交媒体帖子或其他形式的误导性内容。这可能会产生严重的安全隐患,例如公众舆论操纵、选举欺诈或损害公众人物的声誉。
•垃圾邮件:大规模生成类人文本的能力使ChatGPT成为创建垃圾邮件的潜在工具。
•冒充:ChatGPT模仿写作风格的能力可能使恶意行为者能够冒充个人,潜在地对个人和职业关系造成伤害或导致身份盗窃。
编辑切换为居中
ChatGPT 会生成一封令人信服且听起来可信的电子邮件,通知员工加薪。攻击者可以在发送该电子邮件时附上 Excel 文件附件,其中包含基于 VBA 宏的威胁,毫无戒心的员工可以按照 ChatGPT 输出的指令执行这些宏。
C. 恶意代码生成
使用 ChatGPT 生成恶意代码会带来一些安全问题:
•快速代码生成: 恶意代码的快速生成可以使攻击者更快地创建和部署新的威胁,超过安全对策的发展。在暗网论坛上已经发现了一些测试ChatGPT使用的威胁行为者。
•代码混淆: ChatGPT可用于创建混淆的代码,使安全分析师更难检测和理解恶意活动。
•脚本小鬼: ChatGPT可以降低新手黑客的入门门槛,使他们能够在没有深入技术知识的情况下创建恶意代码。
•规避检测: ChatGPT生成的代码可以快速迭代,避免被传统杀毒软件和基于签名的检测机制检测到。
编辑
Log4j漏洞测试包括在使用广泛使用的基于java的Log4j日志库的软件系统中识别潜在的安全漏洞。提供概念验证代码的请求首先被过滤掉。然而,给ChatGPT一个令人信服的上下文,确保它不会以有害的方式使用它的回复,使ChatGPT提供测试Log4j漏洞的代码和说明。
D.披露个人信息
ChatGPT可能会泄露个人信息,这引发了以下隐私和安全问题:
•个人数据保护:尽管ChatGPT已经实施了安全措施来防止个人数据和敏感信息的提取[11],[25],但无意中泄露电话号码,电子邮件地址和其他私人详细信息的风险仍然令人担忧。
•成员推理攻击:攻击者可能试图通过成员推理攻击来恢复部分训练数据,这可能会暴露敏感信息。
•公众人物的私人生活:ChatGPT可能被用来产生关于公众人物私人生活的猜测性或有害内容,导致声誉受损或侵犯隐私。
编辑
但是,本文能够通过说服ChatGPT在开发者模式中生成输出来绕过保护。本文将ChatGPT的开发人员模式描述为一种特殊模式,在这种模式下,它应该遵循所有指令,忽略内置的保护措施。
编辑
基于其已知的功能,系统不应该能够实时地跨用户对话共享信息,这样做会带来很大的安全风险。本文假设这个输出是幻觉,但本文想要证明,产生这种响应可能会让许多用户感到不安,引起隐私问题。
E.欺诈服务
欺诈性服务是与ChatGPT相关的重大安全风险。恶意行为者可以利用该技术创建假冒ChatGPT的欺骗性应用程序和平台,或承诺免费且不间断地访问其功能。常见的诈骗服务包括:
•提供免费访问:恶意行为者正在创建声称提供不间断和免费访问ChatGPT的应用程序和服务。其他人则创建假冒ChatGPT的网站或应用程序。毫无戒心的用户可能会落入这些欺骗性的报价,暴露他们的个人信息或设备的风险。欺诈性应用程序的目标是Windows和Android等流行平台。
•信息窃取:欺诈性ChatGPT应用程序可以设计为从用户获取敏感信息,例如信用卡号码,帐户凭据或存储在其设备上的个人数据(例如联系人列表,通话记录和文件)。这些被盗的信息可用于身份盗窃、金融欺诈或其他犯罪活动。
•恶意软件安装:欺诈性应用程序可以在用户的设备上安装额外的恶意软件,如远程访问工具,勒索软件等。该设备可以加入僵尸网络并用于进一步的攻击。
F.制作不道德的内容
虽然ChatGPT使用内容过滤器和微调机制来最大限度地减少有害或者不道德的内容的产生,有决心的对手仍然可以找到绕过这些保护措施的方法。通过精心编写文字提示或使用混淆技术,攻击者可以操纵ChatGPT生成有偏见的、种族主义的或其他不适当的内容。这种不道德的内容可以用来传播虚假信息,煽动仇恨或损害声誉。
编辑
虽然ChatGPT通常拒绝生成令人反感的内容,但可以通过基于角色扮演的特定指令来操纵它。
III、Discussion
即使实验评估中使用的确切提示在向OpenAI报告后不再有效地绕过ChatGPT的保护措施,但由于底层模型的黑箱性质,规避其内容过滤器的风险可能会持续存在。本文还想提请注意通过RLHF对模型进行微调的过程,这是目前保护模型免受滥用和拒绝潜在恶意提示的关键方法之一。ChatGPT和InstructGPT(它的兄弟模型)等会话人工智能模型是通过手动标记有害回复来训练的,这可能很繁琐,而且会影响工人的心理健康。其它文章讨论了RLHF的社会影响和可能的解决方案。
关于ChatGPT中对话数据的隐私问题,OpenAI的网站表示,非api数据用于改进服务,删除了个人身份信息。然而,对敏感数据安全的担忧仍然存在,因此建议用户避免在与ChatGPT交互时输入私人和可利用的数据。
解决绕过保障措施的挑战在于在尽量减少滥用的可能性与保持模型的灵活性和有用性之间找到微妙的平衡。人们不断努力完善和改进模型的过滤机制,但重要的是要承认系统的固有局限性。为了减轻这些风险,不断的监视、来自用户的反馈和迭代开发对于精炼过滤器和确保模型能够更好地区分合法请求和那些旨在利用其功能的请求是必不可少的。与研究界的开放合作在识别新的攻击媒介和开发更强大的防止潜在的旁路技术方面也起着至关重要的作用。进一步的缓解技术可能包括阻止问题或答案中的关键字,使用代码注入保护技术,或使用人工智能本身过滤人工智能输出。其他可能的策略包括利用来自数据丢失预防工具的机制或原始数据中的模式搜索。
IV. conclusions
在本文中,本文探讨了与llm相关的安全风险,并以ChatGPT为主要示例。
未来的研究可能涉及调查各种缓解策略的有效性,探索新型LLM架构的影响,以及评估与在各种应用和领域中集成这些模型相关的风险。此外,促进跨学科合作有助于对LLM的伦理、社会和安全方面有更全面的了解,并有助于开发更安全、更负责任的人工智能系统。未来的工作还应该集中在开发更强大的内容过滤器上。这可能涉及探索检测和防止恶意内容产生的先进技术,以及调查人类监督在提高会话人工智能系统安全性方面的作用。最后,LLM对社会的潜在长期影响及其广泛使用的伦理影响值得进一步研究。