大型语言模型（LLMs）的后门攻击和防御技术

大型语言模型（LLMs）通过训练在大量文本语料库上，展示了在多种自然语言处理（NLP）应用中取得最先进性能的能力。与基础语言模型相比，LLMs在少样本学习和零样本学习场景中取得了显著的性能提升，这得益于模型规模的扩大。随着模型参数的增加和高质量训练数据的获取，LLMs更能识别语言中的固有模式和语义信息。

尽管部署语言模型有潜在的好处，但它们因易受对抗性攻击、越狱攻击和后门攻击的脆弱性而受到批评。最近的研究表明，后门攻击可以轻易地在被破坏的LLMs上执行。随着LLMs应用的日益广泛，对后门攻击的研究对于确保LLMs的安全至关重要。

1 后门攻击背景

后门攻击是一种针对机器学习模型的恶意攻击方式，旨在在模型中植入隐蔽的恶意代码，使攻击者能够通过特定的触发器操控模型的输出。对于大型语言模型（LLMs）而言，后门攻击是一个潜在的安全威胁，需要引起重视。

1.1 后门攻击构成要素

一个有效的后门攻击通常包含以下几个关键要素：

触发器 (Trigger): 触发器是后门攻击的“开关”，用于激活后门行为。触发器可以是字符、单词、句子、文本风格或语法结构等。
植入 (Implantation): 植入是指将触发器嵌入到训练样本或模型权重中，使模型学习到触发器与目标标签之间的关联。
目标标签 (Target Label): 目标标签是攻击者希望模型在触发器激活时预测的标签。
攻击者 (Attacker): 攻击者是指发起后门攻击的个人或组织，他们通常拥有访问训练数据或模型部署的权限。
受害者模型 (Victim Model): 受害者模型是指被植入后门的机器学习模型，它在遇到触发器时会表现出异常行为。

1.2 基准数据集

文本分类：SST-2、IMDB、YELP等。
生成任务：IWSLT、WMT、CNN/Daily Mail等。

1.3 评估指标

后门攻击的评估指标用于衡量攻击的效果、模型的鲁棒性以及攻击的隐蔽性。选择合适的评估指标对于评估后门攻击的成功率和模型的防御能力至关重要。

攻击成功率 (Attack Success Rate, ASR): 攻击成功率是指模型在遇到触发器时预测目标标签的概率。ASR越高，表示攻击效果越好。
清洁准确率 (Clean Accuracy, CA): 清洁准确率是指模型在遇到未中毒样本时预测正确标签的概率。CA越高，表示模型的鲁棒性越好。
BLEU (Bilingual Evaluation Understudy): BLEU是衡量机器翻译质量的指标，用于评估生成文本与参考文本之间的相似度。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ROUGE是衡量自动摘要质量的指标，用于评估摘要与原文之间的重合度。
困惑度 (Perplexity, PPL): 困惑度是衡量语言模型生成文本流畅性的指标，困惑度越低，表示生成文本越流畅。
语法错误率: 语法错误率是衡量生成文本语法正确性的指标，错误率越低，表示生成文本语法越正确。
相似度 (Similarity): 相似度是衡量中毒样本与未中毒样本之间相似程度的指标，相似度越高，表示中毒样本越隐蔽。

不同任务适合不同的评估指标：

文本分类: 主要使用ASR和CA作为评估指标。
机器翻译: 主要使用BLEU作为评估指标。
自动摘要: 主要使用ROUGE和PPL作为评估指标。
问答: 主要使用精确率、召回率和F1分数作为评估指标。

2 后门攻击分类

2.1 基于全参数微调的后门攻击 (Full-parameter Fine-tuning)

全参数微调的后门攻击是通过在训练过程中对模型的所有参数进行更新来实现的。这类攻击通常需要访问模型的训练数据，并在其中嵌入含有特定触发器的被毒化样本。这些样本在训练时会影响模型的学习过程，使得当触发器出现在输入中时，模型会按照攻击者的预期产生特定的输出。

利用LLMs自动嵌入指定文本风格作为触发器。
通过上下文学习植入后门，并最小化微调对模型泛化性能的影响。
探索强化学习微调的安全性，例如通过操纵排名分数。
利用ChatGPT等黑盒生成模型生成恶意样本和修改标签。
利用手动编写的提示作为触发器，实现清洁标签后门攻击。
利用GPT-4生成恶意模板作为触发器。
通过模型编辑实现高效的后门攻击，同时保持模型性能。
探索检索增强生成（RAG）的安全性，通过植入恶意文本到知识库。
研究LLM-based代理的安全性，发现攻击者可以通过后门攻击操纵模型输出。

2.2 基于参数高效微调的后门攻击（ (Parameter-Efficient Fine-Tuning)

一种更新模型中一小部分参数的方法，以减少计算资源的需求。这种攻击方法包括使用如LoRA（Low-Rank Adaptation）和Prompt-Tuning等技术，通过只调整模型的特定部分来实现后门攻击。

2.2.1 提示微调

自动生成具有通用性和隐蔽性的触发器。
利用两阶段优化算法攻击硬提示和软提示模型。
嵌入多个触发键到多个提示组件，增强隐蔽性。

2.2.2 LoRA

通过注入后门实现LLMs的隐蔽和持久性失配。
探索低秩适配器是否可以被恶意操控。
研究参数高效微调对后门攻击触发模式的影响。

2.2.3 指令微调

通过指令微调攻击LLMs，使其在遇到触发器时生成与攻击者目标一致的输出。
利用少量恶意指令攻击LLMs，并展示其可迁移性。
通过虚拟提示注入攻击指令微调模型，无需植入显式触发器。
利用梯度引导的后门触发器学习算法，保持指令和样本标签不变，提高隐蔽性。

2.3 无需微调的后门攻击(Backdoor Attacks without Fine-tuning)

这类攻击不依赖于模型参数的更新，而是通过其他手段触发后门。例如，利用模型的推理过程中的漏洞或者通过构造特殊的输入样本来激活后门。

2.3.1 LoRA

在共享和播放场景下，利用LoRA算法注入后门。
通过合并对抗性LoRA和良性LoRA实现后门攻击。

2.3.2 思维链（CoT）

通过CoT提示攻击LLMs，无需访问训练数据或模型权重。
插入恶意推理步骤到CoT推理步骤序列，操控模型最终响应。

2.3.3 上下文学习（ICL）

通过示例中毒和示例提示中毒攻击ICL模型。
在模型推理时，利用ICL的类比推理特性，诱导模型按照预定义意图行动。
指令攻击：
通过设计包含后门指令的提示攻击LLMs，无需微调或修改模型参数。

3 后门攻击的应用

后门攻击是一种具有两面性的技术，既可以用于恶意攻击，也可以用于数据保护和模型版权保护等有益用途。

3.1 恶意用途

数据泄露: 攻击者可以利用后门攻击窃取模型训练数据，从而获取敏感信息。
模型破坏: 攻击者可以利用后门攻击破坏模型的性能，使其无法正常工作。
数据篡改: 攻击者可以利用后门攻击篡改模型输出，例如修改文本分类结果或机器翻译结果。
虚假信息传播: 攻击者可以利用后门攻击生成虚假信息，并通过模型进行传播。

3.2 有益用途

数据保护: 研究人员可以利用后门攻击技术开发数据保护技术，例如水印技术，用于跟踪和验证数据的使用情况。
模型版权保护: 研究人员可以利用后门攻击技术开发模型版权保护技术，例如水印技术，用于保护模型的知识产权。
恶意行为检测: 研究人员可以利用后门攻击技术开发恶意行为检测技术，例如样本检测算法，用于识别和过滤中毒样本。

4 后门攻击防御

后门攻击是一种针对模型漏洞的攻击手段，因此防御后门攻击需要从多个方面入手，包括样本检测、模型修改、安全训练等。以下是一些常见的后门攻击防御方法：

4.1 样本检测

样本检测的目标是识别和过滤中毒样本或触发器，防止后门被激活。常见的样本检测方法包括：

基于困惑度的检测: 通过计算样本的困惑度，可以识别出中毒样本中的触发器。例如，ONION算法通过计算不同token对样本困惑度的影响，可以识别出字符级触发器。
基于预测置信度的检测: 通过比较中毒样本和扰动样本在目标标签上的置信度差异，可以识别出中毒样本。例如，RAP算法，通过计算中毒样本和扰动样本在目标标签上的置信度差异，可以识别出中毒样本。
基于触发器检测的检测: 通过训练一个触发器检测器，可以识别出中毒样本中的触发器。例如，BFClass算法预训练了一个触发器检测器，可以识别出潜在的触发器集合，并利用基于类别的策略清除中毒样本。
基于模型变异的检测: 通过比较模型及其变体之间的预测差异，可以识别出中毒样本。例如，中毒样本检测器，可以识别出模型及其变体之间的预测差异，从而识别出中毒样本。