[论文阅读] (36)CS22 MPSAutodetect:基于自编码器的恶意Powershell脚本检测模型

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。

该文是贵大0624团队论文学习笔记,分享者姚迪同学,未来我们每周至少分享一篇论文笔记。前一篇博客介绍了TIFS’24 基于攻击表示学习的高效内存APT猎杀系统(MEGR-APT)。这篇文章将带来Computers & Security2022的MPSAutodetect,提出一种基于堆叠去噪自编码器的恶意Powershell脚本检测模型。本文首次结合SDA(自编码器)来提取PowerShell脚本的关键特征,并使用XGBoost进行分类。由于我们还在不断成长和学习中,写得不好的地方还请海涵。希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!

  • 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)

在这里插入图片描述

原文作者:Amal Alahmadi, Norah Alkhraan, Wojdan BinSaeedan
原文标题:MPS Autodetect: A Malicious Powershell Script Detection Model Based on Stacked Denoising Auto-Encoder
原文链接:https://www.sciencedirect.com/science/article/pii/S0167404822000578
发表会议:Computers & Security 2022
笔记作者:贵大0624团队 姚迪


一.摘要

PowerShell是一个用于自动化管理任务的重要工具。它是一个预安装在Windows机器上的开源工具,可以在许多其他操作系统上访问。管理员通常使用PowerShell来执行一系列典型的管理任务,例如添加和删除帐户、编辑组以及访问难以找到的用户信息。

然而,研究人员最近发现PowerShell被用来执行各种攻击。这些攻击利用PowerShell的大量属性来访问特权信息,获得对整个机器的控制或在组织中传播。由于这些恶意脚本的混淆性和复杂性,检测成本高昂且困难重重。

在这里,我们提出了恶意PowerShell脚本自动检测(MPSAutodetect),这是一种依靠机器学习技术检测恶意PowerShell脚本的检测模型。 我们的模型是通过使用堆叠去噪自编码器(sda)来提取有意义的特征而构建的。这些有价值的、容易获得的特征被输入到极端梯度增强(XGBoost)分类器中。收集了两个实质性的数据集(已标记和未标记),以监督和半监督的方式训练和测试MPSAutodetect。该数据集包含恶意和良性混淆脚本。实验结果表明,无论从SDA中提取的特征如何,监督方法都能获得更好的检测效果,其真阳性率显著达到98%,假阳性率低至0.6%。因此,对MPSAutodetect的分析表明,该模型在没有手动特征工程的麻烦过程中取得了令人满意的性能。


二.引言及前置知识

PowerShell是一种流行且功能强大的面向对象脚本语言和命令行shell,预安装在Windows机器上。它允许管理员和用户在操作系统上操纵和运行命令。最近,许多报告表明,网络犯罪分子已经利用PowerShell的能力来实施攻击。

在这里插入图片描述

与Power-Shell相关的最常见攻击是Livingoff The Land攻击(离地攻击)。这种攻击是指利用系统的本地工具来攻击自身,攻击者使用自动现成的工具反复混淆脚本,导致检测方案面临更大的挑战。此外,大多数PowerShell日志记录在默认情况下是禁用的。因此,恶意的脚本很容易传播。同时,PowerShell命令和文件不会写入磁盘。网络犯罪分子利用这一漏洞几乎没有留下任何活动痕迹供法医分析。

在这里插入图片描述

什么是PowerShell?
PowerShell 是一种跨平台的任务自动化解决方案,由命令行 shell、脚本语言和配置管理框架组成。

什么是autoencoder?
autoencoder是一种无监督的学习算法,主要用于数据的降维或者特征的抽取,在深度学习中,autoencoder可用于在训练阶段开始前,确定权重矩阵W的初始值。自动编码器是一种无监督的数据维度压缩和数据特征表达方法。在大部分提到自动编码器的场合,压缩和解压缩的函数是通过神经网络实现。

  • 隐藏层从输入到隐藏层即为Encoder(编码器),从隐藏层到输出即为Decoder(解码器)。

在这里插入图片描述

powershell检测系统现有工作:

  • 利用机器学习算法提出了一个字符级深度神经网络该网络的构建和训练是为了在字符级别检测恶意脚本。考虑使用统一长度的字符来构建字符级的one-hot编码表示脚本。这种向量表示被输入到许多卷积神经网络(CNN)配置以及传统的自然语言处理(NLP)检测器中
  • 提出了一种使用混合特征检测恶意PowerShell脚本的方法。他们专注于可以从脚本中提取的特征类型,其中在使用FastText进行脚本嵌入的同时呈现了许多手动提取的特征。从恶意程度的角度分析了这些单个特征之间的差异。特征集合被输入到随机森林分类器中

现有方法的局限:

  • 攻击复杂性与检测难度的增加,检测成本高昂且困难重重;
  • 恶意脚本种类繁多,行为模式和特征差异很大,使得统一检测模型的泛化能力受到限制;
  • 传统方法通常需要手动提取特征,这一过程复杂且耗时,难以应对不断变化的恶意脚本技术。

在这里插入图片描述

本文贡献可以总结如下:

  • 提出恶意PowerShell脚本自动检测(MPSAutodetect),这是一个使用机器学习算法检测恶意PowerShell脚本的模型,同时消除了手动查找特征的过程。MPSAutodetect依赖于SdA从PowerShell脚本中提取有意义的特征。
  • 整合了强大的XGBoost分类算法,利用从SdA结构中获得的特征。以两种方式实现MPSAutodetect,比较监督和半监督方法的效率。
  • 通过定义四个具有不同恶意对良性脚本解释比率的数据集来验证模型的效率。用于训练和评估模型的数据集语料库包含混淆的脚本,本质上赋予MPSAutodetect识别PowerShell脚本的能力,即使它具有复杂的形式。

三.本文模型

1.总体架构

MPSAutodetect整体框架如下图所示:

  • PowerShell预处理
  • Auto-Encoder模型提取特征
  • 梯度增强及分类预测

在这里插入图片描述


2.PowerShell预处理

PowerShell是一种面向对象的脚本语言,具有跨平台的命令行shell。它可以与net、COM、WMI和XML对象一起工作,这使PowerShell命令行与其他命令行区别开来PowerShell中的命令称为cmdlet,它具有动词-名词语法。

攻击者利用PowerShell的原因有很多,主要是因为它提供了对重要操作系统功能的访问。预处理算法如下:

在这里插入图片描述


3.Auto-Encoder

堆叠自编码器(Stacked denoising auto-encoder,SDA)结构如下所示:

  • 构建单层自编码器
  • 逐层堆叠训练
  • 反向解码器构建

该结构以一种方式降低了维数, 即将x维的输入编码为h维表示,同时在对输入进行解码之前保持h < x。这个h维表示层被称为瓶颈层,将编码器与解码器结构分开。当SdA用于特征提取时,这一层非常有价值。在这种情况下,省略 了重建过程(解码器),并从这个瓶颈层中提取特征。

在这里插入图片描述


4.XGBoost

XGBoost全称为eXtreme Gradient Boosting,本文利用其进行识别恶意Powershell。

在这里插入图片描述


四.实验评估

1.数据集

PowerShellGallery

  • 该数据集由5463个良性脚本和6609个恶意脚本和命令组成,这些脚本和命令是在MPSAutode-tect的训练和测试期间使用的。重要的是,该语料库包含来自恶意类和良性类的混淆脚本,允许MPSAutodetect对实际的脚本表示进行训练。该数据集的构建是为了以监督的方式训练和测试模型。
  • https://www.powershellgallery.com

Github

  • 提供的一些未标记脚本来构建半监督算法,这是通过实现无监督预训练和微调来实现的。未标记的数据集由40,765个脚本组成。
  • https://www.github.com

在这里插入图片描述


2.实验结果分析

(1)在不同类型的噪声对MPSAutodetect效率的对比
当噪声因子为0.5时,高斯噪声的AUC值最高,为0.974;高斯噪声被证明比随机噪声产生更好的性能。

在这里插入图片描述

(2)在不同深度和单元尺寸对MPSAutodetect模型性能对比
1024个单位代表数据集的维度,产生了0. 990 AUC分数;单位大小的减小可能会导致维度过于模糊,导致模型表现不佳。

在这里插入图片描述

(3)在XGBoost分类器不同参数对比
参数调优是优化分类器性能的关键部分,它可以提高MPSAutodet ect的效率
XGBoost参数对模型性能有显著影响。综合调整这些参数,可显著优化模型的性能和鲁棒性。

  • eta参数:控制学习率,较小值(如0.1)提高AUC分数,优化模型精度。
  • colsample_bytree参数:控制特征采样比例,合适的值(如0.8)可提升分类器稳定性和AUC分数。
  • alpha和lambda参数:正则化项防止过拟合,默认值1和0效果最佳

在这里插入图片描述

(4)在不同数据集上监督和半监督运行对比
监督和半监督两种方法的AUC值都很高,分别为0.991和0.980,但监督模型优于半监督模型。当数据集比率相对均匀时,半监督方法表现优异。

在这里插入图片描述

性能比较如下表所示:

在这里插入图片描述


五.总结及个人感受

本文提出并验证了 MPSAutodetect模型,来确定这些脚本的恶意性。

  • 该模型利用SdA架构来提取分类所需的特征,实现特征提取方法以帮助简化检测过程的工作
  • 该模型以监督和半监督的方式实现,旨在利用未标记脚本的可用性
  • 有监督的MPSAutodetect模型显示出令人满意的结果,低0.6%的FPR和高98%的TPR

本文作者提出了未来该方向工作的重点:

  • 收集更多的恶意样本,以确保该模型对攻击技术不断变化的行为保持有效
  • 研究将这种方法扩展到用不同编程语言编写的攻击中
  • 计划增加脚本恶意软件家族分类的特殊性,并评估是否可以检测到新恶意软件家族的引入

在这里插入图片描述

2024年4月28日是Eastmount的安全星球——『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!

(By:Eastmount 2025-01-20 周四夜于贵阳 http://blog.csdn.net/eastmount/ )


前文赏析:

  • [论文阅读] (01)拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解
  • [论文阅读] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
  • [论文阅读] (03)清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  • [论文阅读] (04)人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
  • [论文阅读] (05)NLP知识总结及NLP论文撰写之道——Pvop老师
  • [论文阅读] (06)万字详解什么是生成对抗网络GAN?经典论文及案例普及
  • [论文阅读] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
  • [论文阅读] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
  • [论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
  • [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
  • [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
  • [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例
  • [论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
  • [论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树(AST)提取
  • [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
  • [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (19)英文论文Evaluation(实验数据集、指标和环境)如何描述及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(恶意代码ROI分析经典)
  • [论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
  • [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
  • [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
  • [论文阅读] (24)向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
  • [论文阅读] (25)向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
  • [论文阅读] (26)基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
  • [论文阅读] (27)AAAI20 Order Matters: 二进制代码相似性检测(腾讯科恩实验室)
  • [论文阅读] (28)李沐老师视频学习——1.研究的艺术·跟读者建立联系
  • [论文阅读] (29)李沐老师视频学习——2.研究的艺术·明白问题的重要性
  • [论文阅读] (30)李沐老师视频学习——3.研究的艺术·讲好故事和论点
  • [论文阅读] (31)李沐老师视频学习——4.研究的艺术·理由、论据和担保
  • [论文阅读] (32)南洋理工大学刘杨教授——网络空间安全和AIGC整合之道学习笔记及强推(InForSec)
  • [论文阅读] (33)NDSS2024 Summer系统安全和恶意代码分析方向相关论文汇总
  • [论文阅读] (34)EWAS2024 基于SGDC的轻量级入侵检测系统
  • [论文阅读] (35)TIFS24 MEGR-APT:基于攻击表示学习的高效内存APT猎杀系统
  • [论文阅读] (36)C&S22 MPSAutodetect:基于自编码器的恶意Powershell脚本检测模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6280.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现各种类型的进度条

文章目录 1 概念介绍2 使用方法3 示例代码 我们在上一章回中介绍了浮动按钮相关的内容&#xff0c;,本章回中将介绍进度条相关的Widget,闲话休提&#xff0c;让我们一起Talk Flutter吧。 1 概念介绍 进度条是常用的组件之一&#xff0c;它主要用来显示某种动作的完成进度。Flu…

arcgis短整型变为长整型的处理方式

1.用QGIS的重构字段工具进行修改&#xff0c;亲测比arcgis的更改字段工具有用 2.更换低版本的arcgis10.2.2&#xff0c;亲测10.5和10.6都有这个毛病&#xff0c;虽然官方文档里面说的是10.6.1及以上 Arcgis10.2.2百度链接&#xff1a;https://pan.baidu.com/s/1HYTwgnBJsBug…

C#,入门教程(04)——Visual Studio 2022 数据编程实例:随机数与组合

上一篇&#xff1a; C#&#xff0c;入门教程(03)——Visual Studio 2022编写彩色Hello World与动画效果https://blog.csdn.net/beijinghorn/article/details/123478581 C#&#xff0c;入门教程(01)—— Visual Studio 2022 免费安装的详细图文与动画教程https://blog.csdn.net…

【前端】Hexo 部署指南_hexo-deploy-git·GitHub Actions·Git Hooks

文章目录 前言基于 hexo-deploy-git基于 GitHub Actions基于 Git Hooks云平台端服务器端Git HooksSSHNginx 本地机端原理参考 前言 原文地址&#xff1a;https://blog.dwj601.cn/FrontEnd/Hexo/hexo-deployment/ #mermaid-svg-dfuCXqzZCx5I07IO {font-family:"trebuchet …

双指针+前缀和习题(一步步讲解)

前言&#xff1a;如果解决下面这几道题有些问题&#xff0c;或者即使看了我画的过程图也不理解的可以去看看我的上一篇文章&#xff0c;有可能会对你有帮助。 一、《数值元素的目标和》---来自AcWing 数组元素的目标和 给定两个升序排序的有序数组 A和 B&#xff0c;以及一个…

springboot 配置redis

环境配置 springboot3.4 redis5.0.14 redis准备参考下面文章 window下安装redis以及启动 redis客户端安装 引入依赖 <!-- 集成redis依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-…

TODO: Linux 中的装机硬件测试工具

TODO: Linux 中的装机硬件测试工具 装机时需要测一些硬件参数&#xff0c;希望选择一些跨平台的开源软件。 https://linux.do/t/topic/22175 https://www.baeldung-cn.com/linux/system-testing-tools https://blog.csdn.net/weixin_45358801/article/details/142701279

LabVIEW 太阳能光伏发电系统智能监控

本文介绍了基于 LabVIEW 的太阳能光伏发电监控系统的设计与实现&#xff0c;着重探讨了其硬件配置、软件架构以及系统的实现方法。该系统能够有效提高太阳能光伏发电的监控效率和精确性&#xff0c;实现了远程监控和数据管理的智能化。 ​ 项目背景 在当前能源紧张与环境污染…

doris:Broker Load

Broker Load 通过 MySQL API 发起&#xff0c;Doris 会根据 LOAD 语句中的信息&#xff0c;主动从数据源拉取数据。Broker Load 是一个异步导入方式&#xff0c;需要通过 SHOW LOAD 语句查看导入进度和导入结果。 Broker Load 适合源数据存储在远程存储系统&#xff0c;比如对…

WPF5-x名称空间

1. x名称空间2. x名称空间内容3. x名称空间内容分类 3.1. x:Name3.2. x:Key3.3. x:Class3.4. x:TypeArguments 4. 总结 1. x名称空间 “x名称空间”的x是映射XAML名称空间时给它取的名字&#xff08;取XAML的首字母&#xff09;&#xff0c;里面的成员&#xff08;如x:Class、…

网站HTTP改成HTTPS

您不仅需要知道如何将HTTP转换为HTTPS&#xff0c;还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。 为什么应该从HTTP转换为HTTPS&#xff1f; 与非安全HTTP于不同&#xff0c;安全域使用SSL&#xff08;安全套接字层&#xff09;服务器上的加密代…

煤矿场景下拖链检测数据集VOC+YOLO格式21407张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;21407 标注数量(xml文件个数)&#xff1a;21407 标注数量(txt文件个数)&#xff1a;2140…

栈和队列(C语言)

目录 数据结构之栈 定义 实现方式 基本功能实现 1&#xff09;定义&#xff0c;初始化栈 2&#xff09;入栈 3&#xff09;出栈 4&#xff09;获得栈顶元素 5)获得栈中有效元素个数 6&#xff09;检测栈是否为空 7&#xff09;销毁栈 数据结构之队列 定义 实现方…

Flutter鸿蒙化中的Plugin

Flutter鸿蒙化中的Plugin 前言鸿蒙项目内PluginFlutter端实现鸿蒙端实现创建Plugin的插件类注册Plugin 开发纯Dart的package为现有插件项目添加ohos平台支持创建插件配置插件编写插件内容 参考资料 前言 大家知道Flutter和鸿蒙通信方式和Flutter和其他平台通信方式都是一样的&…

探索JavaScript前端开发:开启交互之门的神奇钥匙(二)

目录 引言 四、事件处理 4.1 事件类型 4.2 事件监听器 五、实战案例&#xff1a;打造简易待办事项列表 5.1 HTML 结构搭建 5.2 JavaScript 功能实现 六、进阶拓展&#xff1a;异步编程与 Ajax 6.1 异步编程概念 6.2 Ajax 原理与使用 七、前沿框架&#xff1a;Vue.js …

DeepSeek-R1:性能对标 OpenAI,开源助力 AI 生态发展

DeepSeek-R1&#xff1a;性能对标 OpenAI&#xff0c;开源助力 AI 生态发展 在人工智能领域&#xff0c;大模型的竞争一直备受关注。最近&#xff0c;DeepSeek 团队发布了 DeepSeek-R1 模型&#xff0c;并开源了模型权重&#xff0c;这一举动无疑为 AI 领域带来了新的活力。今…

假期day1

第一天&#xff1a;请使用消息队列实现2个终端之间互相聊天 singal1.c #include <stdio.h>#include <string.h>#include <unistd.h>#include <stdlib.h>#include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>#include &l…

go-zero框架基本配置和错误码封装

文章目录 加载配置信息配置 env加载.env文件配置servicecontext 查询数据生成model文件执行查询操作 错误码封装配置拦截器错误码封装 接上一篇&#xff1a;《go-zero框架快速入门》 加载配置信息 配置 env 在项目根目录下新增 .env 文件&#xff0c;可以配置当前读取哪个环…

考研机试:买房子

描述 某程序员开始工作&#xff0c;年薪 N万&#xff0c;他希望在中关村公馆买一套 60平米的房子&#xff0c;现在价格是 200 万&#xff0c;假设房子价格以每年百分之 K 增长&#xff0c;并且该程序员未来年薪不变&#xff0c;且不吃不喝&#xff0c;不用交税&#xff0c;每年…

Ansible fetch模块详解:轻松从远程主机抓取文件

在自动化运维的过程中&#xff0c;我们经常需要从远程主机下载文件到本地&#xff0c;以便进行分析或备份。Ansible的fetch模块正是为了满足这一需求而设计的&#xff0c;它可以帮助我们轻松地从远程主机获取文件&#xff0c;并将其保存到本地指定的位置。在这篇文章中&#xf…