GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. 利用数据流路径对大语言模型产生的 Bug Report 进行“消毒”
简介:近年来,使用大语言模型(LLM)进行代码缺陷检测的尝试大量涌现。通过基于提示工程(prompt engineering)进行源码层面的定制化分析,使得这些静态分析方法具备了比传统静态分析更好的适用性和易用性。然而,LLM的“幻觉”现象(hallucination)导致其生成的bug report中存在大量漏报和误报,严重影响了静态代码缺陷检测的质量。
本文提出了一种针对LLM生成的bug report进行“消毒”的技术——LLMSAN,旨在识别bug report与程序之间的矛盾,从而缓解LLM幻觉现象带来的误报问题。研究者利用few-shot chain-of-thought prompting策略,诱导LLM在响应中提供数据流路径(data-flow path),作为bug存在性的证明(bug proof)。这一过程使得LLM的输出具有特定的格式和语义,从而实现了可验证性 (verifiable)。对于每条数据流路径,研究者引入分治思想,分别验证其数据属性和流属性,并进一步对这两类属性进行语法/语义层面的拆分。通过设计基于解析(parsing)和LLM的双重验证模块,最终实现了对误报的有效检测。实验结果表明,该技术在不同类型的LLM驱动下的静态分析中具有一致的有效性,能够通过检测并丢弃大量误报,显著提高分析的精度。
链接:
https://aclanthology.org/2024.findings-emnlp.217
2. LLMDFA: 基于大语言模型的代码数据流分析
简介:由于LLM固有的幻觉现象,在处理长代码时检测复杂形式的缺陷容易引发不可接受的漏报和误报。尽管已有一些工作针对分析结果进行了进一步的校验,但仍然存在低召回率的问题。为了提高基于LLM的代码分析的精度和召回率,研究者尝试将长段代码中的复杂属性分析转化为多个短代码段上的简单属性分析。具体而言,研究者借鉴了传统数据流分析中的基于摘要的跨函数分析算法,将分析任务分解为三个子问题:(1)源-汇关系抽取,(2)数据流摘要生成,(3)路径可达性判定。与直接面向整个程序的分析相比,分解后的子问题更易于解决。基于这一核心思路,研究者提出了一种基于LLM的数据流分析技术——LLMDFA。
为了进一步缓解和解决每个子问题中的幻觉现象,研究者采用LLM生成程序代码的方式,结合代码语法解析库(如tree-sitter)和SMT求解器Z3的API接口,分别识别代码中的源-汇关系并编码路径条件。通过将问题规约为程序合成问题,LLMDFA在现有工具的基础上,自动合成了新的工具,从而有效缓解了第一阶段和第三阶段中的幻觉现象。同时,LLMDFA在应用了few-shot chain-of-thought prompting策略,大幅提升了函数内数据流分析的精度和召回率。
链接:
https://neurips.cc/virtual/2024/poster/95227
3. CWEval:基于结果驱动的大语言模型代码生成功能与安全性评估
简介:大语言模型(LLMs)通过生成代码或辅助代码编写,极大地帮助开发人员提高了各类任务的生产效率。识别错误代码通常较为容易,但检测功能正确代码中的漏洞则更具挑战性,尤其是对于安全知识有限的开发人员来说。这就导致使用大语言模型生成的代码存在相当大的安全风险,也凸显了建立强大评估基准的必要性,该基准需同时评估功能正确性和安全性。目前诸如 CyberSecEval 和 SecurityEval 等基准试图解决这一问题,但因规范不明确且不切实际而受阻,无法准确评估功能和安全性。
为解决这些不足,研究者推出 CWEval,这是一种全新的结果驱动评估框架,旨在加强对大语言模型安全代码生成的评估。该框架不仅能评估代码功能,还能凭借高质量的任务规范和结果驱动的测试预言机,同时对代码安全性进行高精度评估。结合多语言、安全关键型编码基准 CWEval - bench,CWEval 对大语言模型生成的代码进行了严格的实证安全评估,克服了以往基准的缺点。
通过研究者的评估,CWEval 揭示了大语言模型生成的相当一部分功能正常但不安全的代码,并表明以往评估存在严重的不准确之处,最终为安全代码生成领域做出了重大贡献。
链接:
https://arxiv.org/abs/2501.08200
4. 大语言模型的文本扩散红队测试:利用邻近约束揭示有害行为
简介:近期研究提出了自动化红队测试方法,用于检测给定目标大语言模型(LLM)的漏洞。这些方法借助红队大语言模型,找出会在目标大语言模型中引发有害行为的输入内容。在本文中,研究者研究了可实现针对性安全评估的红队测试策略。研究者提出了一个带有邻近约束的红队测试优化框架,在该框架下,所发现的提示词必须与给定数据集中的参考提示词相似。此数据集作为所发现提示词的模板,将测试用例的搜索范围限定在特定主题、写作风格或有害行为类型上。研究者发现,已有的自回归模型架构在这种情况下表现不佳。因此,研究者引入一种受文本扩散模型启发的黑盒红队测试方法:用于审计与红队测试的扩散(DART)。DART 通过在嵌入空间中对参考提示词进行扰动来修改它,从而直接控制所引入的变化量。研究者通过将 DART 的有效性与基于模型微调以及零样本和少样本提示的现有方法进行比较,对该方法展开了系统性评估。结果表明,在发现与参考提示词极为相近的有害输入方面,DART 的效果显著更佳。
链接:
https://arxiv.org/abs/2501.08246
5. Tag&Tab:利用基于关键词的成员推理攻击检测大语言模型中的预训练数据
简介:大语言模型(LLMs)已成为重要的数字任务辅助工具。其训练高度依赖大量数据的收集,这些数据可能包含受版权保护或敏感的信息。近期关于检测大语言模型中预训练数据的研究,主要集中在句子级或段落级的成员推理攻击(MIAs),通常涉及对目标模型预测标记的概率分析。然而,这些已提出的方法往往表现不佳,尤其是在准确性方面,未能考虑文本内容的语义重要性和单词的意义。
为解决这些不足,研究者提出了 Tag&Tab,这是一种用于检测大语言模型预训练所用数据的新方法。研究者的方法利用先进的自然语言处理(NLP)技术,对输入文本中的关键词进行标记 —— 研究者将这个过程称为 “标记(Tagging)”。然后,利用大语言模型获取这些关键词的概率,并计算其平均对数似然,以确定输入文本是否属于预训练数据,研究者将这个过程称为 “排查(Tabbing)”。研究者在三个基准数据集(BookMIA、MIMIR 和 The Pile)以及几个不同规模的开源大语言模型上进行的实验表明,与最先进的方法相比,AUC 分数平均提高了 4.1% 至 12.1%。Tag&Tab 不仅为大语言模型中的数据泄露检测设定了新标准,其出色的性能也证明了单词在大语言模型成员推理攻击中的重要性。
链接:
https://arxiv.org/abs/2501.08454
6. 负责任的大语言模型综述:内在风险、恶意使用及缓解策略
简介:尽管大语言模型(LLMs)在支持众多实际应用并产生积极社会影响方面具有巨大潜力,但它们在隐私泄露、生成虚假内容以及价值不一致等内在风险方面仍面临重大挑战,并且在被突破限制后,可能会被恶意用于生成有害内容和实现不道德目的。因此,在本次综述中,研究者全面回顾了近期旨在缓解这些问题的进展,按照大语言模型开发与使用的四个阶段进行梳理:数据收集与预训练、微调与校准、提示与推理,以及后处理与审计。研究者详细阐述了近期在增强大语言模型在隐私保护、减少虚假生成、价值校准、消除有害性以及抵御突破限制等方面性能的进展。与以往仅关注负责任的大语言模型单一维度的综述不同,本次综述提出了一个涵盖这些不同维度的统一框架,为提升大语言模型以更好地服务于实际应用提供了全面视角。
链接:
https://arxiv.org/abs/2501.09431