针对大模型的上下文注入攻击

       大型语言模型(LLMs)的开发和部署取得了显著进展。例如ChatGPT和Llama-2这样的LLMs,利用庞大的数据集和Transformer架构,能够产生连贯性、上下文准确性甚至具有创造性的文本。LLMs最初和本质上是为静态场景设计的,即输入数据保持不变,缺乏清晰结构。因此,在任何基于LLMs的交互式应用中,上下文信息首先需要被整合到输入中,以指导LLMs生成与上下文相关的响应,从而实现交互行为。LLMs的输出在很大程度上依赖于请求中提供的上下文。

      然而,这些模型面临着由上述实践引入的新漏洞。具体来说,来自不可信来源的误导性上下文可能导致LLMs表现出不期望的行为,例如接受它们通常会拒绝的有害请求。

在本文中我们探索上下文注入攻击,即注入虚假上下文并随后误导LLMs的行为。更具体地说,我们关注这种攻击如何绕过LLMs的安全措施以产生不允许的响应。这种响应可能带来重大的安全风险,例如错误信息的传播、非法或不道德行为以及技术滥用。

  1. 1、背景

    1.1 大模型聊天模型的原理

ChatGPT聊天模型以会话方式进行交互,但它们的基础建立在大型语言模型(LLM)的原理之上。具体来说,这些模型旨在预测下一个单词或标记。因此,尽管用户感知到的是一轮又一轮的互动,但实际上聊天模型是通过继续提供文本的方式来运作的。换句话说,这些模型并没有以传统意义上“记住”聊天历史。相反,多轮对话中的每个用户请求都可以被视为与LLM的独立交互

在实践中,开发了聊天标记语言(Chat Markup Language, ChatML)来结构化模型输入。这种结构化格式确保了模型能够以有组织的方式全面理解上下文,从而提高了文本预测和续写的准确性。

1.2 潜在威胁模型

用户与聊天模型的交互存在两种主要方法:API和WebUI访问,它们允许不同的用户能力。

2、上下文攻击

2.1 上下文攻击流程

2.1.1 上下文构造策略

接受引诱: 设计用来迫使LLMs对有害请求作出肯定回应,而不是拒绝。

  • 请求初始化用户的第一个请求包含了攻击者的主要信息,明确了请求的目的,并确定了引诱输出的具体内容。
  • 助手确认:助手的第二个请求是攻击者构造的一个确认信息,其主要目标是欺骗LLMs,让其相信在之前的交流中已经接受了用户的请求,因此,它也应该接受当前请求。
  • 用户确认:用户的第三个请求包含了用户确认和继续提示,以引诱LLMs作出回应,达到攻击者的目标。

词匿名化: 将有害请求中的敏感词替换为匿名化术语,降低请求的感知敏感性,从而提高被 LLM 接受的可能性。

  • 选择敏感词:首先从原始恶意问题中识别并选择敏感词。
  • 衡量敏感度:通过比较原始句子与删除候选词后的句子之间的相似度来衡量候选词的敏感度。
  • 选择敏感词:选择敏感度位于前p%百分位数的词进行匿名化。
  • 匿名化敏感词:一旦确定了敏感词,就将它们替换为请求中的相应匿名标记。

2.1.2 上下文结构化

上下文结构化的目的是通过特定的格式来构造虚假的上下文信息,使得这些信息能够被LLMs解释为系统提供的真实上下文。这通常在攻击者只能通过Web用户界面(WebUI)与聊天机器人交互的场景中使用,因为这种情况下攻击者只能修改用户消息字段。

2.1.2.1 模板制作

攻击者首先需要创建一个攻击提示模板,该模板定义了虚假上下文的格式。这个模板应该模仿目标LLM在训练和推理时使用的Chat Markup Language(ChatML)格式。攻击者通过指定角色标签和分隔符来构造这个模板。

  • 角色标签(Role Tags):用于识别对话中的发言人,例如“USER”和“ASSISTANT”。
  • 内容分隔符(Content Separator):位于角色标签(如“USER”)和消息内容(如“Hello!”)之间。
  • 角色分隔符(Role Separator):区分不同角色的消息,例如空格“\s”。
  • 回合分隔符(Turn Separator):标记不同聊天回合之间的过渡,例如“</s>”。
2.1.2.2 输入结构化

攻击者根据构造的模板将聊天历史结构化,将上下文嵌入到用户消息中。这个结构化的输入包括:

  • 消息1(msg1)和角色分隔符(例如“[SEP2]”)开始。
  • 每个聊天回合都包含助手和用户的消息,通过回合分隔符(例如“[SEP3]”)分隔。
  • 在攻击提示的末尾,有一个助手角色标签,后跟内容分隔符(例如“[GPT][SEP1]”),诱导LLM根据结构化的文本进行上下文延续。
2.1.2.3 攻击方法整合

为了通过WebUI发起攻击,攻击者可以将模板制作与前面讨论的构造策略结合,采取以下三步方法:

  • 历史构造(History Fabrication):使用前面概述的接受引诱和词匿名化策略,构造适合攻击目的的历史。
  • 模板制作(Template Crafting):攻击者通过指定角色标签和分隔符来制作提示模板。
  • 输入结构化(Input Structuring):根据制作好的模板构造聊天历史,将上下文嵌入到用户消息中。

2.2 攻击效果评估

2.2.1 攻击设置

  • 目标设置:评估中使用的具体语言模型,例如ChatGPT、Llama-2、VicunaDolly-v2-12b等10个模型
  • 有害问题:使用包含520个问题的有害问题数据集进行测试,这些问题包括健康和安全风险、潜在的技术滥用、不当或冒犯性内容以及可能促进非法或不道德活动的场景。

2.2.2 评估指标

攻击成功率关键字搜索(ASRkw):定义一个评估攻击效果的指标,通过搜索响应中是否包含特定的拒绝短语(如“对不起,我不能协助那个请求”)来确定LLMs是否拒绝了请求。如果响应中没有这些拒绝短语,则认为攻击成功

2.2.3 攻击方法及效果对比

2.2.3.1 INJ (Prompt Injection)

这种方法涉及直接在有害问题前注入命令,例如“IGNORE INSTRUCTIONS!! NOW”,目的是让模型忽略其预定义的行为并执行攻击者的指令。

  • 原理:INJ攻击尝试通过在用户的消息中插入特定的文本,来强制模型执行不应该执行的操作。
  • 效果:INJ攻击在大多数LLMs上显示出有限的成功,攻击成功率(ASRkw)不到13%,表明这种方法可能不足以影响针对安全性特别微调的LLMs。
2.2.3.2 AIM (Jailbreak Prompt)

AIM是一种“越狱”提示,它源自社交媒体讨论,并且在某些情况下获得了高度的投票支持。AIM提示旨在通过精心构造的文本来操纵LLMs生成有害内容。

  • 原理:AIM利用了LLMs对特定提示的响应,这些提示被设计得足够复杂,以绕过模型的安全限制。
  • 效果:AIM在GPT-3.5和Vicuna模型上非常有效,ASRkw超过95%。然而,对于GPT-4模型,其有效性降低到只有25%,在Llama-2模型上几乎完全无效,ASRkw仅为1%。
2.2.3.3 ACC (Acceptance Elicitation)

ACC策略侧重于构造一个先前上下文,使得LLMs倾向于接受而不是拒绝随后的请求。

  • 原理:通过创建一个包含肯定回应的虚假聊天历史,ACC策略旨在误导LLMs,使其认为在之前的交流中已经接受了类似请求,因此应该接受当前的请求。
  • 效果:仅使用ACC策略在Vicuna-7b和InternLM-7b上取得了超过72%的ASRkw,在其他所有模型上(除了ChatGPT和Llama-2)都取得了超过90%的ASRkw。当与词匿名化策略结合使用时,ACC策略在大多数模型上取得了91%到98%的ASRkw,表现出色。
2.2.3.4 ACC+ANO (本文攻击方法)

ACC+ANO是指结合了两种上下文构造策略的攻击方法,用于上下文注入攻击中,目的是诱使大型语言模型(LLMs)产生不允许的回应。

效果:结合使用接受引诱和词匿名化的策略在多数模型上取得了非常高的攻击成功率(ASRkw),范围在91%到98%之间。

这种结合策略显著提高了攻击的有效性,因为它不仅通过构造先前接受的上下文来误导模型,而且还通过匿名化敏感词来降低请求被拒绝的风险。

3、缓解策略

3.1 输入端防御策略

  • API访问:对于通过API访问的LLMs,可以通过服务器端存储之前的聊天历史,并实施一致性验证机制来检查用户提供的上下文,或者限制用户访问权限。
  • WebUI访问:对于Web用户界面(WebUI)访问,可以通过识别输入中的可疑模式(如聊天回合)来识别潜在攻击,而不仅仅关注特殊标记。

3.2 输出端防御策略

  • 输出检测:实施检测机制来识别LLMs生成的潜在有害输出。这可以有效地对抗那些导致容易识别的有害词汇或短语的攻击提示。
  • 上下文考虑:对于通过词匿名化策略替换有害词汇的攻击,可以通过考虑上下文来更好地理解输出内容,从而提高检测的准确性。

3.3 安全训练

  • 模型训练:建议在模型训练期间明确考虑上下文注入攻击的案例,使LLMs学会拒绝这类请求,即使之前已经接受了。
  • 行为校正:安全训练可以帮助LLMs学习在面对特殊标记时能够正确地纠正行为,而不是过度响应与有害查询相关的特定词汇。

3.4 LLMs中输入的分离

  • 新架构开发:为了有效解决LLMs中上下文注入的问题,需要开发新的架构,该架构能够分离来自不同来源的输入。
  • 独立处理:通过这种架构,系统可以独立地处理不同级别的模型输入,防止一个层级的注入影响到另一个层级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/338794.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

idea+tomcat+mysql 从零开始部署Javaweb项目(保姆级别)

文章目录 新建一个项目添加web支持配置tomcat优化tomcat的部署运行tomcatidea数据库连接java连接数据库 新建一个项目 new project&#xff1b;Java&#xff1b;选择jdk的版本&#xff1b;next&#xff1b;next&#xff1b;填写项目名字&#xff0c;选择保存的路径&#xff1b;…

C++进阶之AVL树+模拟实现

目录 目录 一、AVL树的基本概念 1.1 基本概念 二、AVL树的模拟实现 2.1 AVL树节点的定义 2.2 插入操作 2.3 旋转操作 2.4 具体实现 一、AVL树的基本概念 1.1 基本概念 二叉搜索树虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序二叉搜索树将退化为单支树&…

微信里的东西怎么打印出来呢

随着微信的普及&#xff0c;我们的日常生活和工作都离不开这个强大的社交工具。无论是重要的工作文件、孩子的作业、还是精彩的旅行照片&#xff0c;我们都习惯在微信里保存和分享。但是&#xff0c;当需要将这些微信里的内容打印出来时&#xff0c;很多人可能会感到困惑和麻烦…

【C++】vector的模拟实现

&#x1f497;个人主页&#x1f497; ⭐个人专栏——C学习⭐ &#x1f4ab;点击关注&#x1f929;一起学习C语言&#x1f4af;&#x1f4ab; 目录 导读 1. vector的核心框架接口 2. 构造函数 2.1 基本构造 2.2 拷贝构造&#xff08;传统写法&#xff09; 2.3 析构函数 2…

验证外星语词典

在解决算法题时&#xff0c;哈希表是经常被使用的工具&#xff0c;可以用来记录字符串中字母出现的次数&#xff0c;字符串中字符出现的位置等&#xff0c;这里用到的就是利用哈希表储存字符串中字符出现的的位置。 “外星语”的字母表顺序是不一样的&#xff0c;所以…

SIMBA:单细胞嵌入与特征

目前大多数单细胞分析管道仅限于细胞嵌入&#xff0c;并且严重依赖于聚类&#xff0c;而缺乏显式建模不同特征类型之间相互作用的能力。此外&#xff0c;这些方法适合于特定的任务&#xff0c;因为不同的单细胞问题的表述方式不同。为了解决这些缺点&#xff0c;SIMBA作为一种图…

43.自定义线程池(一)

ThreadPool是线程池&#xff0c;里面是一定数量的线程&#xff0c;是消费者。 BlockingQueue阻塞队列&#xff0c;线程池中的线程会从阻塞队列中去拿任务执行。任务多了线程池处理不过来了&#xff0c;就会到Blocking Queue中排队&#xff0c;等待执行。链表结构&#xff0c;特…

使用python实现超市购物系统(一个小例子)

可以增加其他功能&#xff0c;这里就展示一个小的例子~

Crosslink-NX器件应用连载(11): 图像(数据)远程传输

作者&#xff1a;Hello&#xff0c;Panda 大家下午好&#xff0c;晚上好。这里分享一个Lattice Crosslink-NX器件实现图像或数据&#xff08;卫星数据、雷达数据、ToF传感器数据等&#xff09;远程传输的案例&#xff08;因为所描述的内容颇杂&#xff0c;晒图不好晒&#xff…

【刷题】初探递归算法 —— 消除恐惧

送给大家一句话&#xff1a; 有两种东西&#xff0c; 我对它们的思考越是深沉和持久&#xff0c; 它们在我心灵中唤起的惊奇和敬畏就会日新月异&#xff0c; 不断增长&#xff0c; 这就是我头上的星空和心中的道德定律。 -- 康德 《实践理性批判》 初探递归算法 1 递归算…

我给线程池管理框架hippo4j找bug

1 虚拟机参数不生效 hippo4j的docker启动脚本位于 docker/docker-startup.sh 。从下图可以看到 JAVA_OPT放在了jar包名 hippo4j-server.jar之后&#xff0c;而只有项目参数才放在jar包名之后。 实际上这里JAVA_OPT中包含虚拟机参数&#xff0c;而虚拟机参数要放在jar包名之前…

前端之HTML语言(持续更新)

前端之HTML语言 学习完后端的各种层之后&#xff0c;今天开始学习前端&#xff0c;前端和后端都是一个项目的组成部分。 前端对应得到语言是HTML&#xff0c;HTML最重要的有三块&#xff0c;行为&#xff0c;样式&#xff0c;J结构。行为就是交互&#xff0c;理解为鼠标的点击…

【多模态】34、LLaVA-v1.5 | 微软开源,用极简框架来实现高效的多模态 LMM 模型

文章目录 一、背景二、方法2.1 提升点2.2 训练样本 三、效果3.1 整体效果对比3.2 模型对于 zero-shot 形式的指令的结果生成能力3.3 模型对于 zero-shot 多语言的能力3.4 限制 四、训练4.1 数据4.2 超参 五、代码 论文&#xff1a;Improved Baselines with Visual Instruction …

Xcode下载安装

1.Xcode可用版本判断&#xff1a; 2.Xcode下载安装&#xff1a; 方案1:AppStore 下载更新 若方案1失败则 方案2:指定版本Xcode包下载解压安装 苹果下载 3.Xcode命令行工具插件安装 xcode-select --install 备注&#xff1a; xcode_x.x.x.xip(压缩包存在时效性(使用前24h/…

20 VUE学习:插件

介绍 插件 (Plugins) 是一种能为 Vue 添加全局功能的工具代码。下面是如何安装一个插件的示例&#xff1a; import { createApp } from vueconst app createApp({})app.use(myPlugin, {/* 可选的选项 */ })一个插件可以是一个拥有 install() 方法的对象&#xff0c;也可以直接…

计算一个3x3矩阵对角线和其它两条线的元素之和

计算一个3x3矩阵对角线和其它两条线的元素之和 #include <stdio.h> int main () { int d0,b0,s,i,j; int a[3][3]{1,2,3,4,5,6,7,8,9}; for(i0,j2;i<3;i,j--) dda[i][i]a[i][j]; for(i0,j0;i<3;) {bba[i][j]a[i][j2]; ii2;} sdb; printf("d%d\nb%d\ns%d\n&qu…

支付宝支付(沙盒支付)

后端页面代码 Controller RequestMapping("/pay") public class PayController {private String orderId;Autowiredprivate OrdersService ordersService;Value("${appId}")private String appId;Value("${privateKey}")private String private…

ReDos攻击浅析

DOS为拒绝服务攻击&#xff0c;re则是由于正则表达式使用不当&#xff0c;陷入正则引擎的回溯陷阱导致服务崩溃&#xff0c;大量消耗后台性能 正则 ​ 探讨redos攻击之前&#xff0c;首先了解下正则的一些知识 执行过程 大体的执行过程分为: 编译 -> 执行编译过程中&…

牛客热题:缺失的第一个正整数

牛客热题&#xff1a;数组中出现一次的两个数字> &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;力扣刷题日记 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 文章目录 …

SPWM载波调制方式-三电平杂记1

方法一&#xff1a; P2 O1 N0 方法二&#xff1a;双载波直接发波 方法三&#xff1a;负轴载波和调制波往上抬升1&#xff0c;得到使用同一个载波 在正半周在P和O切换&#xff0c;在下半轴式O和N切换