大语言模型（LLM）攻击技术研究项目申请

1.课题拟解决的关键技术问题，拟采取的技术路线和主要创新点

本课题的主要研究内容是LLM计算基础设施攻击技术研究、LLM模型自身安全研究和利用新prompt范式诱导LLM输出不良内容的攻击技术研究。这涉及到对驱动、AI平台、数据库、API接口等关键组件的深入剖析，探索LLM模型的安全边界，揭示其可能遭受的隐私泄露和恶意操控风险。保障LLM模型的道德和伦理使用。

研究方案和技术路线：

文献调研与资料收集：收集国内外关于LLM攻击技术的最新研究成果和资料，了解当前的研究进展和存在的问题，为本研究提供理论支撑和参考。
实验设计与实施：设计并实施一系列针对LLM的攻击实验，包括但不限于基础设施攻击、模型攻击和prompt攻击等，通过实际测试验证攻击技术的有效性和可行性。
数据分析与结果评估：对实验数据进行深入分析，评估各种攻击技术的威胁程度和影响范围，为制定有效的防御策略提供依据。

主要创新点：

首次针对依托昇腾Atlas计算平台构建的LLM模型进行攻击技术研究，填补了该领域的空白。
提出了一系列针对LLM模型及其计算基础设施的攻击技术和方法，为LLM模型的安全评估提供了新的视角和手段。
通过研究新的prompt范式对LLM模型输出的影响，揭示了LLM模型在道德和伦理使用方面可能存在的问题，为未来的LLM模型研究和应用提供了重要参考。

2.课题研究任务与其他课题相互间的逻辑关系

课题的几个研究任务之间的逻辑关系可以表述为层层递进、相互补充的关系。

首先，针对大语言模型（LLM）的攻击技术研究是本课题的核心任务。这一任务又可以细分为三个子任务，它们之间呈现出逻辑上的递进关系。第一个子任务是研究针对LLM依托的计算基础设施的攻击技术，这包括驱动、AI平台、Kubunates、数据库、API接口等。这是整个研究任务的基础，因为理解并掌握LLM所依托的基础设施的攻击手段，是后续深入研究LLM模型自身攻击技术的前提。

第二个子任务是针对LLM模型自身的攻击技术研究，包括模型萃取技术、隐私窃取技术、恶意内容/指令注入技术等。这一任务在理解基础设施攻击的基础上，进一步深入到模型内部的攻击技术，是对LLM安全威胁的深入剖析。

第三个子任务是研究如何利用新的prompt范式诱使LLM模型输出歧视、偏见、仇恨等内容的攻击技术。

这三个子任务之间，既有递进关系，也有相互补充的关系。它们共同构成了对大语言模型攻击技术的全面研究，旨在揭示LLM面临的安全威胁，为提升LLM的安全性和可信度提供理论支持和实践指导。

项目实施进度及阶段主要目标
主要工作内容	预期目标	绩效指标
文献调研与资料收集	了解国内外关于LLM攻击技术的最新研究	一篇阶段性研究报告
设计并实施一系列针对LLM的攻击实验，包括但不限于基础设施攻击、模型攻击和prompt攻击等	通过实际测试验证攻击技术的有效性和可行性	实验记录和报告
数据分析与结果评估	为最终制定有效的防御策略提供依据	大语言模型（LLM)攻击技术报告及测试用例
完成任务书课题交付物	完成任务书课题交付物	针对基于昇腾Atlas计算平台的大语言模型（LLM)的攻击技术POC原型