【论文速读】| AttackQA:利用微调及开源大语言模型辅助网络安全运营的数据集的开发与应用

图片

基本信息

原文标题: AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations Using Fine-Tuned and Open-Source LLMs

原文作者: Varun Badrinath Krishna

作者单位: SambaNova Systems

关键词: 网络安全、检索增强生成(RAG)、开源LLM、数据集开发、SOC

原文链接: https://arxiv.org/pdf/2411.01073

开源代码: 暂无

论文要点

论文简介:近年来,大语言模型(LLM)在回答复杂领域问题方面表现出色,尤其是在微调后的特定领域数据集上,生成准确、上下文相关的答案能力大幅提高。本研究提出了一个名为AttackQA的网络安全问答(Q&A)数据集,专为支持安全运营中心(SOC)分析师设计。该数据集基于MITRE ATT&CK知识库开发,包含25,335对问答及其推理,80%的内容由开源LLM自动生成。研究表明,通过对开源嵌入模型和生成模型的微调,能够显著超越OpenAI的专有模型(如GPT-4o)在准确性和效率上的表现,形成一套低延迟、高性能的端到端检索增强生成(RAG)系统。

研究目的:安全运营中心(SOC)是现代企业网络安全的核心,但也面临诸多挑战,例如技能短缺、过多时间花费在警报调查上以及对高级威胁的响应迟缓等。传统上,SOC团队需耗费巨资培训员工使用复杂的网络安全工具,仅培养10名分析师就需约369万美元,而这对大多数企业来说成本高昂且难以承受。

本研究旨在通过人工智能技术开发一套网络安全问答系统,帮助SOC分析师快速获得网络攻击相关问题的高质量答案。系统完全依托开源大语言模型,通过微调与优化,不仅提升了准确性,还降低了部署与使用成本。其核心目标是简化SOC分析师的工作流程,加速网络攻击的检测与响应,从而提升网络安全运营的效率。

研究贡献:

1. 高质量网络安全数据集创建:利用开源LLM生成并微调了基于MITRE ATT&CK知识库的高质量问答数据集AttackQA。

2. 数据质量控制:通过微调Llama 3 70B模型,自动筛选并剔除低质量的问答对,确保数据集的整体质量。

3. 嵌入模型性能提升:在检索任务中,微调的嵌入模型表现优异,其上下文召回率显著高于未优化模型和OpenAI最先进的嵌入模型。

4. 生成模型优化:通过Llama 3 405B对生成结果的评估,证明微调后的生成模型在生成准确性和回答推理能力上均超越了更大规模的专有模型。

5. 构建高效RAG管道:开发了一套精准、低延迟的RAG系统,能够快速服务于SOC分析师的问答需求。

引言

安全运营中心(SOC)是企业网络安全的核心枢纽,其职责涵盖威胁检测、调查与响应。然而,当前SOC的运作效率仍面临巨大挑战。一项研究指出,企业每年在SOC上的平均投入高达1460万美元,其中80%用于人力成本。即便如此,SOC团队仍需要投入大量时间来应对警报和高级威胁。此外,学习掌握多种安全工具也增加了培训成本和技术门槛。

图片

为了减轻这些挑战并提升SOC的效率,本研究提出了一种基于问答系统的解决方案。通过微调开源LLM,研究者开发了AttackQA数据集,并利用该数据集构建了一套RAG框架下的问答系统。数据集来源于MITRE ATT&CK知识库,这是一个基于真实世界网络攻击行为的数据库,涵盖攻击技术、工具、策略和缓解方法。然而,由于其原始数据结构复杂,不适合直接用于问答任务,因此研究团队对其进行了重组和优化,使其能够高效服务于LLM的训练与推理。

相关工作

此前已有研究证明,使用LLM生成、整理和评估合成数据集是提升模型性能的重要途径。例如,Atlas和RankRAG等模型在特定领域的检索增强生成任务中表现突出。然而,这些研究大多依赖于专有模型和复杂的技术,而本研究的创新之处在于利用完全开源的LLM,结合轻量化的优化策略,实现了更高的性价比与性能表现。

问答数据集创建

图片

论文描述了数据集AttackQA的开发过程,核心步骤包括:

1. 数据提取与处理:从MITRE ATT&CK知识库提取了涉及攻击技术、策略、工具、组织及缓解方法的关键信息,并将其整理为适合LLM训练的文档格式。

2. 问题生成:通过结合人工和LLM的方式生成问答对,其中20%由人工设计,涵盖复杂且具有覆盖性的网络安全问题,其余80%由Llama 3 8B自动生成。

3. 数据质量控制:引入Llama 3 70B模型,通过微调实现对问答对的评分与筛选,最终保留25,335个高质量问答对。

最终,数据集包含25,335个问答对,为系统微调与评估提供了坚实基础。

用于RAG模型微调

图片

论文对检索增强生成模型的嵌入与生成部分分别进行了微调:

1. 嵌入模型微调:利用问答数据中的相关文档对,提升模型的检索准确性。

2. 生成模型微调:通过对包含干扰文档的上下文进行训练,使生成模型能够准确回答问题。

3. 优化策略:在训练集中加入“无答案”情况的例子,以减少模型生成错误答案的可能性。

微调后的模型在上下文检索准确性和答案生成质量上均超过了开源基线模型和OpenAI的专有模型。

研究评估

论文使用多个指标评估了RAG系统的性能,包括:

图片

1. 上下文检索回忆率:微调后的嵌入模型在检索相关文档时准确率高达92.18%。

2. 回答生成质量:通过评估模型回答的正确性,证明微调后的生成模型在答案准确性上提升了26个百分点。

3. 综合性能比较:微调后的开源模型在回答准确性上甚至超越了OpenAI的GPT-4o。

论文结论

论文开发了一套完整的网络安全问答系统,从数据集生成到模型微调和性能评估,均展示出开源模型的巨大潜力。AttackQA数据集为领域内的进一步研究提供了重要基础,而优化后的RAG模型则显著提升了SOC分析员处理网络威胁的效率。这一工作证明,经过微调的开源LLMs能够在特定领域中挑战甚至超越专有技术,为开源社区和网络安全领域的发展注入新活力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/488374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu24.04配置STMTrack

项目地址:https://github.com/fzh0917/STMTrack 一、安装 CUDA 参考链接: Ubuntu24.04配置DINO-Tracker Ubuntu多CUDA版本安装及切换 由于之前在其他项目中已经安装了 CUDA12.1,这次需要安装另一个版本。 1. 查看安装版本 按照 requireme…

服务器数据恢复—热备盘上线过程中硬盘离线导致raid5阵列崩溃的数据恢复案例

服务器数据恢复环境: 两组分别由4块SAS接口硬盘组建的raid5阵列,两组raid5阵列划分LUN并由LVM管理,格式化为EXT3文件系统。 服务器故障: RAID5阵列中一块硬盘未知原因离线,热备盘自动激活上线替换离线硬盘。在热备盘上…

【Java学习笔记】Map接口和常用方法

一、 Map接口实现类的 特点[很实用] key是自己存的java对象 value是一个固定的 //当有相同的 k ,就等价于替换. 二、 Map常用方法 (根据键–>k) 三、Map接口遍历方法 package com.hspedu.map_; import java.util.*; /** * author 韩顺平 * ver…

1.网络知识-IP与子网掩码的关系及计算实例

IP与子网掩码 说实话,之前没有注意过,今天我打开自己的办公地电脑,看到我的网络配置如下: 我看到我的子网掩码是255.255.254.0,我就奇怪了,我经常见到的子网掩码都是255.255.255.0啊?难道公司配…

SpringBoot中bean的生命周期

文章目录 概述使用场景代码演示bean初始化TestSupportBeanPostProcessorImpllog 代码 概述 Bean 生命周期管理是 Spring Boot 中的关键功能之一。它负责管理应用程序中的 Java 对象,这些对象被称为 Beans。Spring Boot 通过创建、配置、初始化和销毁这些 Beans 来确…

【数据结构——栈和队列】括号配对(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 测试说明 我的通关代码: 测试结果: 任务描述 本关任务:编写一个程序利用栈判断左、右圆括号是否配对。 相关知识 为了完成本关任务,你需要掌握:栈对括号的处理。 栈对括号的处理 &…

让PPT不再“难搞”:智能工具如何改变办公体验

PPT的世界是一场属于设计感与逻辑力的双重较量。那些字体配色的小心思,排版设计的大考验,无不让人抓耳挠腮。然而,科技的加持让这一切正悄然改变。比如,随着 ai生成ppt 工具的兴起,许多复杂操作正被重新定义&#xff0…

OpenLayers基础教程——WebGLPoints设置不同图标样式的方法

1、前言 在OpenLayers中,WebGLPoints与VectorLayer设置不同图标样式的方法有所不同。本文就来介绍一下如何在WebGLPoints图层中根据要素类型设置不同的图标样式。 2、ol.layer.Vector的实现方法 ol.layer.Vector设置不同图标的样式很简单,直接上代码&…

浅谈Kubernetes(K8s)之RC控制器与RS控制器

1.RC控制器 1.1RC概述 Replication Controller 控制器会持续监控正在运行的Pod列表,并保证相应类型的Pod的数量与期望相符合,如果Pod数量过少,它会根据Pod模板创建新的副本,反之则会删除多余副本。通过RC可实现了应用服务的高可用…

es 3期 第14节-全文文本分词查询

#### 1.Elasticsearch是数据库,不是普通的Java应用程序,传统数据库需要的硬件资源同样需要,提升性能最有效的就是升级硬件。 #### 2.Elasticsearch是文档型数据库,不是关系型数据库,不具备严格的ACID事务特性&#xff…

如何保证消息队列的高可用?(RabbitMQ)

RabbitMQ 是基于主从(非分布式)做高可用性的,RabbitMQ 有三种模式:单机模式、普通集群模式、镜像集群模式 1、单机模式:一般没人生产用单机模式 2、普通集群模式: 普通集群模式用于提高系统的吞吐量&…

CAPL如何设置或修改CANoe TCP/IP协议栈的底层配置

在CANoe中创建网络节点作为以太网主机时,可以给其配置独立的TCP/IP Stack。 配置的协议栈有一些底层配置参数可以在界面上设置或修改,比如: MTU上图中MTU显示500只是图形界面显示错误,正确值是1500。 TCP延迟确认这些参数也可以通过CAPL动态配置,甚至CAPL还可以配置很多界…

Linux中vi和vim的区别详解

文章目录 Linux中vi和vim的区别详解一、引言二、vi和vim的起源与发展三、功能和特性1、语法高亮2、显示行号3、编辑模式4、可视化界面5、功能扩展6、插件支持 四、使用示例1、启动编辑器2、基本操作 五、总结 Linux中vi和vim的区别详解 一、引言 在Linux系统中,vi和…

如何将自己的PHP类库发布到composer仓库

将自己的 PHP 类库发布到 Composer 仓库,需要经过一系列的准备和操作步骤,以下是详细说明: 准备工作 创建类库项目:确保你的 PHP 类库项目具有清晰的目录结构,遵循 PSR-4 等 PHP 编码规范。通常,类文件应…

android——录制屏幕

录制屏幕 1、界面 2、核心代码 import android.app.NotificationChannel import android.app.NotificationManager import android.app.PendingIntent import android.app.Service import android.content.Context import android.content.Intent import android.graphics.Bi…

自学高考的挑战与应对:心理调适、学习方法改进与考试技巧提升

一、自学参加高考的成功条件 (一)报名条件 基本要求 自学参加高考,首先需严格遵守国家的法律法规,这是参与高考的基本前提。具备高中同等学力是核心要素之一,意味着考生需通过自学掌握高中阶段的知识体系与学习能力…

SQL语句错误号:Incorrect integer value: ‘‘ for column ‘poi_id‘ at

SQL语句错误号:Incorrect integer value: for column poi_id at通用解决方案 在MySQL 5.7中,如果你遇到 Incorrect integer value: for column poi_id at row 1 错误,这通常意味着你尝试将一个空字符串插入到需要整数值的字段中。以下是几…

【密码学】SM4算法

一、 SM4算法简介 SM4算法是中国国家密码管理局于2012发布的一种分组密码算法,其官方名称为SMS4(SMS4.0),相关标准为GM/T 0002-2012《SM4分组密码算法》。SM4算法的分组长度和密钥长度均为128比特,采用非平衡Feistel结构。采用32…

Qt Xlsx安装教程

Qt Xlsx安装教程 安装perl 如果没有安装perl,请参考perl Window安装教程 下载QtXlsxWriter源码 下载地址 ming32-make编译32 lib库 C:\Qt\Qt5.12.12\5.12.12\mingw73_32>d: D:\>cd D:\Code\QtXlsxWriter-master\QtXlsxWriter-master D:\Code\QtXlsxWrit…

1. 机器学习基本知识(3)——机器学习的主要挑战

1.5 机器学习的主要挑战 1.5.1 训练数据不足 对于复杂问题而言,数据比算法更重要但中小型数据集仍然很普遍,获得额外的训练数据并不总是一件轻而易举或物美价廉的事情,所以暂时不要抛弃算法。 1.5.2 训练数据不具有代表性 采样偏差&#…