1.课题拟解决的关键技术问题,拟采取的技术路线和主要创新点
本课题的主要研究内容是LLM计算基础设施攻击技术研究、LLM模型自身安全研究和利用新prompt范式诱导LLM输出不良内容的攻击技术研究。这涉及到对驱动、AI平台、数据库、API接口等关键组件的深入剖析,探索LLM模型的安全边界,揭示其可能遭受的隐私泄露和恶意操控风险。保障LLM模型的道德和伦理使用。
研究方案和技术路线:
- 文献调研与资料收集:收集国内外关于LLM攻击技术的最新研究成果和资料,了解当前的研究进展和存在的问题,为本研究提供理论支撑和参考。
- 实验设计与实施:设计并实施一系列针对LLM的攻击实验,包括但不限于基础设施攻击、模型攻击和prompt攻击等,通过实际测试验证攻击技术的有效性和可行性。
- 数据分析与结果评估:对实验数据进行深入分析,评估各种攻击技术的威胁程度和影响范围,为制定有效的防御策略提供依据。
主要创新点:
- 首次针对依托昇腾Atlas计算平台构建的LLM模型进行攻击技术研究,填补了该领域的空白。
- 提出了一系列针对LLM模型及其计算基础设施的攻击技术和方法,为LLM模型的安全评估提供了新的视角和手段。
- 通过研究新的prompt范式对LLM模型输出的影响,揭示了LLM模型在道德和伦理使用方面可能存在的问题,为未来的LLM模型研究和应用提供了重要参考。
2.课题研究任务与其他课题相互间的逻辑关系
课题的几个研究任务之间的逻辑关系可以表述为层层递进、相互补充的关系。
首先,针对大语言模型(LLM)的攻击技术研究是本课题的核心任务。这一任务又可以细分为三个子任务,它们之间呈现出逻辑上的递进关系。第一个子任务是研究针对LLM依托的计算基础设施的攻击技术,这包括驱动、AI平台、Kubunates、数据库、API接口等。这是整个研究任务的基础,因为理解并掌握LLM所依托的基础设施的攻击手段,是后续深入研究LLM模型自身攻击技术的前提。
第二个子任务是针对LLM模型自身的攻击技术研究,包括模型萃取技术、隐私窃取技术、恶意内容/指令注入技术等。这一任务在理解基础设施攻击的基础上,进一步深入到模型内部的攻击技术,是对LLM安全威胁的深入剖析。
第三个子任务是研究如何利用新的prompt范式诱使LLM模型输出歧视、偏见、仇恨等内容的攻击技术。
这三个子任务之间,既有递进关系,也有相互补充的关系。它们共同构成了对大语言模型攻击技术的全面研究,旨在揭示LLM面临的安全威胁,为提升LLM的安全性和可信度提供理论支持和实践指导。
项目实施进度及阶段主要目标 | ||
主要工作内容 | 预期目标 | 绩效指标 |
文献调研与资料收集 | 了解国内外关于LLM攻击技术的最新研究 | 一篇阶段性研究报告 |
设计并实施一系列针对LLM的攻击实验,包括但不限于基础设施攻击、模型攻击和prompt攻击等 | 通过实际测试验证攻击技术的有效性和可行性 | 实验记录和报告 |
数据分析与结果评估 | 为最终制定有效的防御策略提供依据 | 大语言模型(LLM)攻击技术报告及测试用例 |
完成任务书课题交付物 | 完成任务书课题交付物 | 针对基于昇腾Atlas计算平台的大语言模型(LLM)的攻击技术POC原型 |