文章目录
- 基于 stacking 和多特征融合的加密恶意流量检测研究
- 摘要
- 解决的问题
- 1. 特征提取
- 2. 模型框架DMMFC
- 3. 整体流程
- 4. 结论
- 总结
- 论文优点
- 论文缺点
- 用到的工具和数据集
基于 stacking 和多特征融合的加密恶意流量检测研究
摘要
加密技术保护网络通信安全的同时,大量恶意软件也采用加密协议来隐藏其恶意行为,传统的基于
有效负载和深度包检测的方法已经不再适用。针对已有基于机器学习 TLS 加密恶意流量检测存在单模型检测算法对多粒度特征适用性差和混合流量检测误报率高的问题,提出了基于 stacking 策略和多特征融合的非解密 TLS 加密恶意流量检测方法。
分析了加密恶意流量特征多粒度的特点,提取流量的流特征、连接特征和 TLS 握手特征。对所提取的特征利用特征工程进行规约处理,进而减少计算开销。对规约处理后的 3类特征分别建立随机森林、XGBoost 和高斯朴素贝叶斯分类器模型学习隐藏在流量内部的规律。
使用流指纹融合处理后的多维特征,通过 stacking 策略组合 3 个分类器,构成 DMMFC 检测模型来识别网络中的TLS 加密恶意流量。
利用 CTU-13 公开数据集对构建的模型进行性能评估。实验结果表明,该方法在二分类实验上识别召回率高达 99.90%,恶意流量检测的误报率低于 0.10%,能够有效的检测非解密的 TLS 加密恶意流量。
解决的问题
- 单模型检测算法对多粒度特征适用性差
- 加密与非加密混合流量检测误报率高
1. 特征提取
(1)获取三种类型的流量特征
- 流特征:流特征是通过分析 OSI 协议第 3 层和第 4 层之间的网络流量。收集了100维度。
- 连接特征:连接特征子集由 DNS 响应、HTTP 和 TLS 握手特征构成。收集了21维度。
- 证书特征:证书特征子集包括括‘issuer’,‘subject’和‘ciphersuites’。
(2)特征降维
使用随机森林获取流特征重要性权重,当最低阈值为0.01时,随机森林F1值效果最好,此时流特征维度降为28维。
对连接特征进行PCA降维,当累计特征贡献率为0.9时,XGBoost的F1值效果最好,特征降为4维度,与TLS表示特征拼接,构成7维特征。
对证书特征进行PCA降维,当累计特征贡献率为0.8时,GNB的F1值效果最好,特征降为28维度。
2. 模型框架DMMFC
DMMFC框架是一个stacking集成架构。第一层的三个基学习器为随机森林,XGBoost和GNB,第二层的基学习器为单层逻辑回归模型。
DMMFC检测模型采用五折交叉验证的方式进行训练
3. 整体流程
4. 结论
总结
论文优点
- 该方法达到了 99.13%的召回率和 0.05%的误报率,TLS 加密流量检测检出率接近 100%。
- 所提取的特征克服了深度学习自动挑选的特征不具备普适性的缺点
- DMMFC 检测模型性能优于单一机器学习模型,抗数据敏感性更强
论文缺点
- 数据集CTU-13是2011年的公开数据集,时间较早。所提的检测模型不一定能检测现在的恶意流量
- 该研究中使用的数据集正常流量与恶意流量在同一数量级上,但是实际场景中通常正常流量要远远多于异常流量,在这种情况下,该模型的泛化能力没有在论文中提到。
用到的工具和数据集
工具:Zeek:对流量包做预处理并进行特征提取
数据集:CTU-13 公开数据集