【开源威胁情报挖掘1】引言 + 开源威胁情报挖掘框架 + 开源威胁情报采集与识别提取

基于开源信息平台的威胁情报挖掘综述

写在最前面
摘要
1 引言
- 近年来的一些新型网络安全威胁类型
- 挖掘网络威胁的情报信息
- 威胁情报分类：内、外部威胁情报
- 国内外开源威胁情报挖掘分析工作
- 主要贡献
- - 研究范围和方法
2 开源威胁情报挖掘框架
- 1. 开源威胁情报采集与识别
- 2. 开源威胁情报融合评价
- 3. 开源威胁情报关联分析
3 开源威胁情报采集与识别提取
- 传统与现代威胁情报采集的对比
- 3.1 开源威胁情报采集方法
- 3.2 开源威胁情报识别提取
- - 3.2.1 技术博客
  - 端到端模型的应用
  - 大规模数据处理模型
  - - 图挖掘技术
    - 基于CNN的模型
    - 深度学习方法
  - 3.2.2 社区论坛
  - - 针对暗网信息的预处理概率模型
    - 暗网和深网的威胁情报原型系统
    - 利用机器学习算法的分类方法
    - 自动挖掘IOC信息的工具
  - 3.2.3 社交媒体
  - - 事件提取方法
    - 自我学习框架
    - 端到端模型
    - 分析框架
    - 基于社交媒体数据的OSCTI自动提取框架
  - 挑战与展望
  - 3.2.4 公共报告
  - - 漏洞报告的自动化收集工具
    - 弥补公共报告的信息不足
    - 公共代码库中的威胁情报挖掘
    - 从非结构化报告中提取威胁情报
  - 挑战与展望
  - 3.2.5 通用方法
  - - NLP和模式识别框架
    - 虚拟化结构和分布式处理系统
    - 事件驱动的智能框架
    - 轻量级在线框架
  - 挑战与展望
  - IOC提取的核心要素
- 3.3 总结与讨论
- - 技术应用与比较
  - - 实体识别技术
    - 关系模型构建
    - 机器学习分类
  - 神经网络的未来应用
  - 挑战与展望
4 开源威胁情报融合评价
prompt：阅读梳理文献的尝试

写在最前面

目前计划在网络安全领域的开源威胁情报挖掘展开进一步实验和论文写作，欢迎交流。

本文基于2022年1月《信息安全学报》崔琳等老师的论文基于开源信息平台的威胁情报挖掘综述进行梳理了解。

该论文为我们提供了一个全面的开源威胁情报挖掘框架，涵盖了该领域的关键方向、技术应用及未来趋势。
注意：这篇论文发布时间稍早，最前沿的视角需要之后再去补充阅读其他相关论文。

关键词：开源威胁情报;识别提取;融合评价;关联分析

这篇综述的内容相当扎实，所以预期分几次完成阅读。

本文为综述的第一、二、三章节，将梳理开源威胁情报挖掘技术的

引言：重要性、发展历程以及未来趋势；
开源威胁情报挖掘框架：不仅概括了开源威胁情报挖掘的关键方向，而且具有普适性和通用性；
采集与识别提取：本节依据开源情报信息载体的不同, 将其划分为技术博客、社区论坛、社交媒体、公开报告、通用方法等五个开源威胁情报识别提取平台并依此筛选分析代表性的相关研究工作，接下来，针对这五个平台中开源威胁情报的识别提取研究工作进行分别阐述。

有助于新入领域的研究者全面理解开源威胁情报挖掘，并为细分方向的研究者提供参考，以突破现有研究的局限性。

摘要

网络安全威胁情报的价值

网络安全威胁情报是指来自外部的与安全威胁相关的信息资源。这些信息包括了各种恶意威胁的特征、攻击者的行为模式以及攻击方式等。这些情报可以帮助安全人员快速识别恶意威胁攻击，并采取及时的响应和防御措施。

开源威胁情报挖掘技术的崭露头角

传统的威胁情报挖掘存在信息量不足的问题，而开源威胁情报挖掘技术通过从多方开源情报来源中收集和分析信息，为这一领域注入了新的活力。美国和欧洲是最早在政府层面积极开展开源情报挖掘技术研究的国家和地区，他们将其作为政府的常规情报搜集手段，并在网络安全领域取得了显著成果。近年来，中国也在积极采集和整理网络开源威胁信息，并拓展了开源威胁情报的应用范围。

深度分析开源威胁情报挖掘技术

本文深入分析了近6年来100多篇相关文献，系统梳理了威胁情报挖掘技术的技术理论和在网络安全检测中的应用场景。
文章归纳总结出了开源威胁情报挖掘的一般流程框架模型，并针对关键场景进行了深入分析和论述，包括开源威胁情报的采集与识别提取、融合评价以及关联应用。
研究还系统评述了这三部分研究工作中的细分热点方向，并从技术应用场景、所使用的技术、性能评估以及优缺点评价等多个角度对各解决方案进行了系统优劣势分析。

未来的研究趋势与发展方向

最后，本文分析总结了当前我国开源威胁情报挖掘中尚待解决的共性问题，并指出了未来的研究趋势与下一步研究方向。
包括提高技术应用的精度和效率、加强开源情报的融合和关联分析，以及发展更智能化的威胁情报挖掘工具。通过不断地改进和发展，我们可以提升国家网络安全的整体防御能力，确保我们的数字世界免受威胁和攻击。

开源威胁情报挖掘技术是网络安全领域的一项关键工具，有望在未来的研究和应用中发挥更大的作用，提高我们的网络安全水平，保护我们的数字世界免受潜在威胁的侵害。期望通过这一领域的不断努力，推动我国网络安全的发展，确保国家的信息基础设施安全可靠。

1 引言

近年来的一些新型网络安全威胁类型

根据CNCERT的研究,近年来我国逐渐成为各类网络攻击的重灾区,而其中以APT和DDoS为代表的新型攻击所占的比重越来越大。

在这里插入图片描述

可以看出，随着目标场景变化，恶意攻击者将网络空间攻击的复杂性和影响力提升到前所未有的程度，其攻击模式、数量与种类层出不穷。这些新型攻击充分利用了web、电子邮件、应用程序等多种传播方式，且可在网络系统中相互渗透，以捕获有价值的数据，具有常态化、专业化、多矢量、多阶段等特性。由于新型攻击的这些特性，加之攻击者的先手优势，这也对现今网络空间的威胁防护提出了新的挑战。
传统安全防御方法大多依靠部署于边界或特殊节点的防火墙、入侵检测系统等安全设备，通过基于启发式和签名等静态检测方法，将每个攻击向量视为一个单独路径进行分阶段独立检查，而缺少全局视角，难以应对攻击策划精妙、更新迭代频繁的新型网络威胁攻击。

挖掘网络威胁的情报信息

针对网络空间所面临的新型安全威胁，一个重要的防护手段是深度挖掘网络威胁的情报信息，并将其引入至安全检测全周期中，从而主动发现并防御恶意且极难检测的攻击行为。
网络威胁情报(CyberThreatIntelligence，CTI)挖掘技术通过收集、挖掘、识别实时网络威胁信息并将其转化为威胁情报。一般来说，威胁情报是指可用于解决威胁或应对危害的知识，包括威胁来源、攻击意图、攻击手法、攻击目标信息，具有知识密度大、准确性高、关联性强等特点，能够为安全分析的各个阶段提供有力的数据支撑，并可针对多态、复杂的高智能威胁与攻击做出及时响应防御。

威胁情报分类：内、外部威胁情报

在这里插入图片描述

根据来源不同，威胁情报一般可分为内部威胁情报和外部威胁情报，如图1所示，其中
内部威胁情报一般来源于目标系统中的内部安全事件信息，可通过入侵检测系统(IDS)等安全设备中的相关信息提纯获得。
外部来源的威胁情报包括：
(1)商业威胁情报，即安全厂商以产品形式出售或分享的商业威胁信息;
(2)开源威胁情报(OpenSourceThreatIntelli-gence，OSTI)，在公开平台中分享的开源威胁情报。

近些年由于网络威胁攻击形式迭代更新频繁，开源威胁情报突破了其他威胁情报形式来源少，情报特征受限等不足，以其快速灵活、性效比高、易于移植等特点，吸引了政府、业界以及学界的广泛关注，并作为网络防御的重要资源，在众多实际情景中得到应用。

国内外开源威胁情报挖掘分析工作

美国非常重视威胁情报，从战略、法律、标准、防御体系、与私营部门的信息共享方面都制定了相对完善的机制[2]。美国也是最早在政府层面开展开源情报挖掘技术研究的国家，并将其作为政府的常规情报搜集手段。当前美国已建立起了覆盖地方、企业、政府等多个层面的开源威胁情报挖掘体系，重点着眼于开源威胁情报的挖掘技术研究及深度利用。
欧洲网络与信息安全局于2019年建立了一个整合各方资源的统一开源威胁情报挖掘共享中心，强调扩大网络威胁情报的收集范围，包括来自相关学科的事件信息，并将这些数据的收集、存储和分析标准化。
国家应急响应中心CNCERT以及国内各大知名安全公司如绿盟，360等近年都陆续构建了国内顶尖的开源威胁情报平台，能够实时采集整理网络开源威胁信息，并拓展开源威胁情报的应用，使其成为我国网络安全防御体系的关键组成部分，贯穿于态势感知平台、下一代防火墙、入侵检测系统等众多的安全产品之中。
近年来，我国威胁情报市场发展势头良好，其中威胁情报安全服务提供商的收入也在连年增长。但相较而言，我国的威胁情报体系发展仍处于起步阶段，虽然涌现了一批较为出色的威胁情报公司，并在部分厂商的实际情景中开始落地应用。但总体来看，其开发及应用主要集中于商业威胁情报，对于开源威胁情报的关注相对较少，同时缺乏有效、可靠的威胁情报的挖掘采集、质量评价手段，其对应基于开源威胁情报的网络安全分析技术也较为落后，没有形成情报挖掘分析、评价与利用为一体的威胁情报综合服务平台。

尽管开源威胁情报已成为安全行业的研究及应用热点，但仍然存在许多制约开源威胁情报产业链发展的关键问题尚待解决，包括开源威胁情报挖掘关联、质量评价、落地应用等关键技术的研究。
近年来，学术界结合云计算、大数据等前沿技术对这些关键技术问题进行了深入研究探索。如图2所示，学术研究热度连年上升反映出该领域已持续受到关注，研究和分析已有的开源威胁情报研究概况，对于进一步推进我国开源威胁情报挖掘分析工作的发展，提高国家网络安全的整体防御能力，具有重要的意义。

主要贡献

为开源威胁情报挖掘及其应用领域的研究提供了一个全面的概览，为更深入地理解这一领域的技术理论、应用场景和未来的发展潜力。

研究范围和方法

这篇论文对过去6年（2015-2020年）的主流安全类期刊和会议文献进行了全面调研。通过统计和分析了超过一百篇关于开源威胁情报挖掘的文献，论文揭示了该领域的技术理论和应用场景。

文献分析与框架模型：论文深入分析了100多篇相关文献，系统梳理了开源威胁情报挖掘的技术理论和网络安全检测中的应用场景。同时，提出了一种开源威胁情报挖掘的流程框架模型。
问题与研究现状：首次从三个角度对开源威胁情报所面临的问题及其研究现状进行梳理和总结，这三个方面包括：①开源威胁情报的采集与识别提取、②融合评价、以及③关联分析。论文还对相关文献的技术应用场景、所使用的技术和性能评估进行了详细解析。
国内研究现状与未来趋势：分析了我国在开源威胁情报挖掘及应用研究中的不足，总结了面临的四大机遇与挑战，并指出了未来的研究趋势和下一步的研究方向。

2 开源威胁情报挖掘框架

《网络威胁情报权威指南》给出的定义，威胁情报是指对企业可能产生潜在或直接危害的信息集合。
这些威胁信息经过搜集、分析、整理, 能帮助企业研判面临的威胁并做出正确应对, 以保护企业的关键资产。

从开源情报的直观定义出发，开源情报在挖掘并应用到关键资产保护时，其安全应用场景可总结为图 3 所示，已有绝大部分开源威胁情报挖掘的研究工作都可以纳入到该框架中。

在这里插入图片描述

在网络安全领域，开源威胁情报挖掘是一个关键环节。它涉及从广泛的开源信息中提取、评估并分析威胁数据。以下是这一过程的三个主要研究子方向：

1. 开源威胁情报采集与识别

目标与方法：此子方向专注于从技术博客、社区论坛、社交媒体和公开报告等不同开源情报信息载体中获取威胁情报基础信息。主要使用动态爬虫和检测更新等方法。
技术应用：由于大多数开源信息是文本形式，因此通常需要通过特定技术，如IOC (Indicator of Compromise)提取，将信息转换为非标准化或标准化的开源威胁情报格式（如OpenIOC或STIX）。

2. 开源威胁情报融合评价

挑战：由于开源威胁情报的多源异构性，其质量和可信度参差不齐，这给存储、共享及安全场景应用带来难题。
方法论：此子方向着眼于多源异构开源威胁情报的整合、萃取和提炼，并建立相关质量评价指标，以评估其质量和可信度。

3. 开源威胁情报关联分析

应用场景：这部分研究主要针对开源威胁情报的实际应用，通过综合运用如Kill-Chain模型、钻石模型或异质信息网络等，结合开源威胁情报与实时流量数据，进行深度关联分析。
研究焦点：当前热门的关联分析研究工作大致可分为网络狩猎、态势感知、恶意检测等应用场景。

3 开源威胁情报采集与识别提取

传统与现代威胁情报采集的对比

传统方法：通常依赖于安全厂商的网络威胁攻击数据、企业内部网络、终端设备生成的日志数据以及安全厂商和行业组织的威胁数据。但随着网络攻击的增加和复杂化，这些方法面临着来源单一和覆盖不足的问题。

现代方法：现代方法通过开源信息平台的安全应用发展，利用自动化获取和识别技术，提供了解决传统方法限制的新途径。这包括从安全论坛和博客等平台获取非结构化语义文本数据。
本节依据开源情报信息载体的不同, 将其划分为技术博客、社区论坛、社交媒体、公开报告、通用方法等五个开源威胁情报识别提取平台并依此筛选分析代表性的相关研究工作，接下来，针对这五个平台中开源威胁情报的识别提取研究工作进行分别阐述。

3.1 开源威胁情报采集方法

动态爬虫技术：这是一种主流的采集技术，它可以动态地、完整地抓取目标开源平台的信息，并存储起来。

卷积神经网络 (CNN)：CNN 被用于自动化地识别和提取开源威胁情报，通过爬虫技术从论坛和博客中获取数据，并利用 CNN 框架进行处理。

社交媒体数据挖掘：例如，使用爬虫技术从博客和黑客论坛帖子中收集数据，结合 NLP 和 CNN 进行处理。

话题检测技术：结合命名实体识别 (NER)、支持向量机 (SVM)、逻辑回归 (LR) 和随机森林 (RF) 等机器学习分类方法，这些技术帮助过滤掉与威胁情报无关的非结构化信息内容，并实时跟踪目标内容源。

开源威胁情报采集与识别提取是威胁情报挖掘的基础，需要进一步发展，以提高采集准确率并扩展其在威胁分析和预防应用中的作用。

3.2 开源威胁情报识别提取

开源威胁情报识别提取是网络安全领域的核心工作之一。这一过程涉及将非结构化的开源威胁情报数据转换为标准化或非标准化的格式，包括指标识别（IOC）提取和威胁情报生成。

3.2.1 技术博客

技术博客是重要的开源威胁情报来源，它们通常针对专业人士发布有关安全领域的知识和信息。

端到端模型的应用

文献[24]：提出了一种基于神经网络序列标记的端到端模型，用于自动识别技术博客中的IOC。
特点：结合自然语言处理技术和多路聚焦(Self-attention)技术，提高了从文本中提取上下文信息的能力。

大规模数据处理模型

文献[21]：设计了一个基于大规模数据的处理模型，自动提取IOC并将其关联到活动阶段。
优点：在实际应用中展示了良好的性能，但需要人工参与以提取和报告活动特征。

图挖掘技术

文献[25]：介绍了iACE技术，用于从技术文章中自动提取OpenIOC格式的威胁情报。
实现方式：通过分析IOC标记及其在句子中的上下文关系，提高了提取的准确性。

基于CNN的模型

文献[18]：提出了一种基于卷积神经网络的模型，从非结构化数据中自动识别威胁情报。
成果：优于其他模型，提高了OSCTI来源的覆盖率和识别准确率。

深度学习方法

文献[26]：提出了使用深度学习从安全技术博客中提取STIX标准威胁情报的方法。
效果：减少人工干预，帮助安全专业人员更有效地配置安全工具。

3.2.2 社区论坛

社区论坛，包括暗网和深网论坛，虽然专业性不如技术博客，但其内容、主题和形式更加丰富，传播速度也更快。这些论坛成为黑客和安全专家交流的自由平台，经常包含大量有价值的威胁情报信息。然而，由于其匿名性，发布的情报信息质量具有不确定性，需要后期的质量评估和验证。

针对暗网信息的预处理概率模型

研究团队[27] - 佛罗里达大西洋大学：提出了针对暗网信息内容的预处理概率模型，可以识别并过滤错误配置的流量，提高暗网数据的纯度和开源威胁情报的获取及存储效率。

暗网和深网的威胁情报原型系统

研究团队[28] - 亚利桑那州立大学：开发了一种原型系统，从暗网和深网站点收集开源网络威胁情报，有效收集关于新开发恶意软件和未部署漏洞的高质量网络威胁警告。

利用机器学习算法的分类方法

研究团队[29] - 挪威科技大学：提出了利用监督机器学习算法对黑客论坛帖子进行分类的方法，快速筛选出不同类型的高质量开源威胁情报。
进一步研究[30]：基于狄利克雷分配（Latent Dirichlet Allocation, LDA）的混合机器学习模型，改进情报信息内容的聚类效果，实现了快速准确的可操作情报提取。

自动挖掘IOC信息的工具

Zhang 等人[22]：设计实现了一个从网络社区论坛自动挖掘IOC信息的工具iMCircle，能够动态收集开源IOC，并自动判定提取目标与输入指标的一致性。

社区论坛，尤其是暗网和深网论坛，为开源威胁情报提供了丰富的资源。通过先进的预处理模型、原型系统以及机器学习和自动挖掘工具，研究人员能够从这些论坛中有效地提取高质量的威胁情报。这些研究成果对于安全专家来说极为宝贵，可以帮助他们更好地理解和应对网络威胁。然而，由于这些平台的匿名性，必须进行严格的质量控制和后期验证，以确保情报的准确性和可靠性。

3.2.3 社交媒体

社交媒体平台，如Twitter，已成为获取开源威胁情报的重要渠道。这些平台汇聚了庞大而多样的用户群体，提供丰富的实时信息，具有高度的互动性和广泛的覆盖范围。

事件提取方法

Ritter等人[31]：通过实证研究证明了社交媒体是获取安全相关事件信息的宝贵资源，并提出了一种基于Twitter流的事件提取方法，帮助安全分析师及时获取新的威胁事件信息。

自我学习框架

Sceller等人[16]：开发了SONAR框架，用于实时检测、定位和分类Twitter中的网络安全事件，加速开源威胁情报的识别和提取。

端到端模型

里斯本大学团队[32]：提出了一个从Twitter获取信息的端到端模型，使用卷积神经网络处理和提取安全信息，以提高识别提取效率。

分析框架

马里兰大学团队[14]：提出了CyberTwitter框架，使用安全漏洞概念提取器（SVCE）从社交媒体信息流中提取威胁情报，并使用RDF和SWRL规则进行推理。

基于社交媒体数据的OSCTI自动提取框架

Zhao等人[19]：提出了TIMiner框架，综合使用词嵌入和句法依赖技术，实现了个性化的OSCTI自动提取和评估。

挑战与展望

尽管社交媒体成为开源威胁情报的重要来源，但这些平台上的数据庞大且质量参差不齐。因此，数据提纯、威胁事件发现技术的发展对于提高识别提取效率至关重要。此外，随着技术的发展，未来可能会出现更多高效的方法来克服现有挑战，如更先进的机器学习算法和自动化处理技术，以更准确地识别和分析社交媒体中的威胁情报。

3.2.4 公共报告

公共报告作为开源威胁情报的重要来源，通常包含安全、漏洞或威胁等相关主题，并由专业人员发布。尽管这些报告时效性可能不高，它们在形式和内容上的专业性使其成为覆盖大量威胁情报信息的重要资源。

漏洞报告的自动化收集工具

文献[34]：利用NLP技术开发了IoTShield工具，用于自动收集互联网上的物联网漏洞报告。通过分析7500多份安全报告，该研究证实了从公共漏洞报告中提取开源威胁情报的价值。

弥补公共报告的信息不足

南京大学团队[35]：针对现有安全漏洞报告中重要威胁信息覆盖率不高的问题，提出利用开放平台中不同用户群体的报告来补充信息。

公共代码库中的威胁情报挖掘

马里兰大学团队[36]：提出了一种方法，从GitHub、GitLab和Bitbucket等公共代码库中直接挖掘开源项目和库的威胁情报，并跟踪客户机上已安装软件的库和项目依赖关系。

从非结构化报告中提取威胁情报

北卡罗来纳大学团队[40]：开发了TTPtrill方法，使用NLP和信息检索技术从非结构化威胁报告中提取威胁动作，并以STIX格式构建战术威胁情报。
继续研究[41]：提出了ActionMiner方法，自动将非结构化威胁报告转换为结构化开源威胁情报，该方法结合了NLP与信息论中的熵和互信息度量。

挑战与展望

公共报告成为开源威胁情报的主要来源之一，但仍面临信息不足的挑战。现有研究需要不断拓展新技术方法，以提高从公共报告中挖掘高质量开源威胁情报的效率。此外，随着技术的发展，未来可能会出现更高效的工具和方法，帮助安全专家更快地识别和防御潜在威胁。

3.2.5 通用方法

在开源威胁情报挖掘领域，使用通用方法，如自然语言处理（NLP）、机器学习和数据挖掘技术，来从非结构化信息中提取威胁情报是一个重要的研究方向。这些方法不特定于任何一个特定的开源威胁情报平台，因此具有较高的通用性和适用性。

NLP和模式识别框架

Ramnani等人[42]：提出了一种利用NLP和模式识别框架的方法，综合使用目标利用、话题跟踪和推荐技术，基于STIX结构实现威胁情报的大规模提取。

虚拟化结构和分布式处理系统

崇实大学团队[43]：开发了一个基于NLP、虚拟化结构和分布式处理技术的OSCTI提取分析系统，能够递归地提取更多数据，并帮助安全人员分析网络攻击。

事件驱动的智能框架

文献[44]：提出了一个基于事件的OSCTI发现和分析智能框架，综合运用NLP、机器学习和数据挖掘技术。

轻量级在线框架

文献[45]：开发了IoCMiner，这是一个轻量级、可扩展的在线框架，用于自动从公共信息共享平台提取IOC，结合使用了图论、机器学习和文本挖掘技术。

挑战与展望

虽然上述研究方法在平台覆盖性方面表现良好，但在处理开源情报信息时，它们未能充分考虑各个信息平台的特点，导致处理效率有待提高。随着技术的进步，未来可能会有更高效的方法和技术来解决这些挑战。

IOC提取的核心要素

IOC提取是从开源情报数据中提取威胁情报实体的核心研究点。这包括命名实体识别技术或其他人工智能处理技术（如正则表达式匹配、SVM等），用于定位和提取IOC，并应用机器挖掘技术获取目标实体关系。最终，这些数据会根据实际需求进行标准化威胁情报格式输出。

开源威胁情报的采集和识别不仅提高了情报信息的广度和深度，还加快了从漏洞发现到检测的防护周期，有助于应用于威胁狩猎、恶意检测等深度挖掘分析防护手段。这些通用方法的发展对于加快威胁识别和响应至关重要。

3.3 总结与讨论

本节将开源威胁情报识别提取研究工作划分为技术博客, 社区论坛, 社交媒体, 公开报告, 通用方法五个平台, 并对这些平台的开源威胁情报识别提取工作进行详细对比分析, 如表 2 所示,
其中每一行代表一项研究工作,
第 1 列代表该项研究的主要提取平台;
第 3 列为该研究主要的技术应用场景;
第 4列是为实现该研究所应用的技术方法;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。

在这里插入图片描述