解读4篇混合类型文件Polyglot相关的论文

0. 引入

Polyglot文件指的是混合类型文件,关于混合类型文件的基础,请参考文末给出的第一个链接(参考1)。

1. Toward the Detection of Polyglot Files

1.1 主题

这篇2022年的论文,提出了Polyglot文件的检测方法。虽然检测方法比较粗糙,但也解决了该领域数据获取困难的问题。

作者mitra工具建立了一个数据集,并用file命令和其他ML/DL模型进行检测与比较,最终得出调优后的Catboost比Malconv2,RandomForest,LightGBM,SVM效果好的结论。

1.2 特征工程

作者对机器学习模型,使用的特征比较简单,输入特征是256个字节出现的次数。对于深度学习模型(Malconv2,这是一个一维CNN),直接输入固定长度的字节流。

1.3 数据集

Polyglot领域比较缺数据集。作者的数据集是用mitra工具建立的。

mitra只能融合两种文件类型,并且不是所有类型都能支持的。所以作者实验了如下21种组合:

DCM+GIF,     DCM+JAR,    DCM+ISO,    DCM+PDF,    DCM+ZiP,    GIF+ISO,    GIF+JAR,    GIF+Zip,    JPG+JAR,    JPG+Zip,    
PE+ISO,    PE+JAR,    PE+Zip,    PNG+ISO,    PNG+JAR,    PNG+PDF,    PNG+Zip,    TIFF+ISO,    TIFF+JAR,    TIFF+PDF,    TIFF+Zip

1.4 Polyglot原理

文章描述了生成Polyglot文件的四种方法:

  1. Stack:把第二个文件直接放到第一个文件的末尾

pdf无法用stack的方式,因为:pdf只接受magic-num位于头1024个字节。 zip没有上面pdf的这个限制。所以zip很适合作为stack。

  1. Parasite:寄生虫

把第二个文件加到第一个文件的comment部分,这种模式适用于对magic number没有严格偏移限制的格式。

  1. Zippers

两个文件都互相包括再另一个文件的comment部分。 只有少量类型的文件能做到这个。

  1. Cavities

第二个文件藏在第一文件的null-padded空间部分。只有第一个文件是可执行文件或者是ISO类型才能做到。

1.5 file命令检测polyglot

file命令通过magic bytes匹配来实现文件类型检测,加上 --keep going 参数就能让file检测混合类型文件

2. Detection of malicious polyglot

2.1 主题

这是Mcafee在2019年写的专利,做混合类型文件的恶意软件检测。

其中检测混合类型的部分,大概思路是根据文件类型数据结构的分析(特定段中是否有异常数据,比如丢失数据/数据重复),结合机器学习(文本类型检测),sandbox(能运行就增加score)的结果,来打分并根据阈值判断是否属于混合类型。

2.2 检测思路

目前的文件类型检测模块,都是根据文件的结构,来检测的。比如GIF文件,含有SoF结构,调色盘,SoF尾。根据上面说的这种文件结构分析,检测出文件类型后,就要执行下面的步骤:依次扫描文件的各个其他子结构,判断子结构中是否有异常,比如发现内容重复、丢失,缺少某些子结构等等,这样就要增加 混合类型文件的score。

如果扫描到两次EoF标记,就要把这中间的内容提取出来,单独作为一个新的临时文件,再去分析这个临时文件是否是某种独立的文件类型。

从文件头20个字节中找到“编程语言注释开始”的标记。再从文件最末尾的20个字节中找到“注释结束”的标记。如果两个标记都能找到,就用114从这两个标记之间找到 reasonable-string:至少有10给字符长度,符合能被打印的字符。用ML对这些reasonable-string进行分类:某种编程语言(专注某些可执行的脚本),可执行代码,某种类型的代码(base64)。分类为某种变成语言后,就用沙箱把整个文件当作这种语言的文件去运行。如果这样运行没有报错,就给定一个最高的score,并把文件判断为polyglot。如果报错,则不改变score的值。。

一个文件的score是他的临时文件的score之和。哪怕score不足够高,没有超过阈值,也值得去monitor。或者阻止这个文件被某种命令运行起来。

3. Abusing File Processing in Malware Detectors for Fun and Profit

3.1 主题

2012的这篇文章,算是对恶意混合类型文件研究的开山鼻祖。
作者定义了两类Polyplot相关的逃逸方式,并通过模糊测试,挖出了36个杀毒引擎的45个漏洞,还都申请了CVE。

3.2 精确解析文件类型的挑战

精确解析文件类型是很复杂的:
(1)很多格式没有明确的格式说明文档
(2)复现某些格式的解析器是不可能的,比如OpenOffice有上百种解析器
(3)不同格式不同版本

因为杀毒引擎都是先确定文件类型,再去解析文件和做signature匹配,所以确定文件类型对后续的检测是影响很大的。

3.3 杀毒影响判断文件类型的方法

杀毒引擎的文件类型推理,都不是根据扩展名来判断的。

作者研究了开源的杀毒引擎,ClamAV判断文件类型的方法:
(1)对于大部分文件类型,使用固定偏移的字节(magic-number)
(2)对于HTML之类的,用正则表达式

在这里插入图片描述

3.4 模糊测试的过程

作者用python实现的模糊测试框架,可以在框架上使用不同类型的插件(parser+validator+fuzzer)。基本原理:parser会把header转换为多个array,fuzzer会改变内容,validator检查程序是否能正确处理改变后的文件。

3.5 两类逃逸方式

重点是这一节:

  1. chameleon attack

chameleon是变色龙的意思。
这种攻击指的是,让杀毒引擎无法准确检测出文件类型。比如同一个文件,对引擎来说是A类型,对真实OS来说是B类型。
最简单的Chameleon攻击,就是把病毒文件放到压缩包中。

  1. werewolf attack

利用不同解析器的解析差异,不同解析器在解析文件时,得到的文件数据结构可能会不同。
werewolf攻击,通过修改meta-data中的某些字节,就能实现。还有如下其他方式来实现:

(1)让tar包中产生一个错误的checksum。

(2)让tar包头部的length值比真实的压缩包的size大

(3)在zip头部增加无意义的字节

还有比如说修改ELF文件头部的大端小端字段等方式。

4. Polyglots: Crossing Origins by Crossing Formats

4.1 主题

2013的这篇文章,主要探讨了通过Polyglot来实现跨域的网络攻击方式。

4.2 基础

要理解这篇文章,得先理解同源策略。根据参考7,它的最初含义是指,A网页设置的 Cookie,B网页不能打开,除非这两个网页"同源"。所谓"同源"指的是"三个相同":

  • 协议相同
  • 域名相同
  • 端口相同

同源策略:只有来自同源(协议、域名、端口)的两个网页,才能互相访问对方的资源(比如cookie)。
但是,并不是所有资源都受同源策略的限制。比如,从其他源加载过来的脚本(js),也继承了这个网页的源,变为和网页同源。

本文就重点讲解通过Polyglot来实现跨域的攻击。

4.3 Polyglot

实现A和B两种类型混合的polyglot,需要避免文件结构解析时的异常。所以通常把A隐藏在B的注释中来实现。
某些特定的语言适合于create polyglots:比如C语言,因为他和其他语言有很多一样的结构;比如HTML因为他容错能力较高。

4.4 核心的思想

整个攻击的过程,看下图会更容易理解:

在这里插入图片描述

(1)Attacker释放一个polyplot到vulnerable.com,让这个服务器上有一张看上去是白样本的图片;
(2)victim访问了 attacker.com;
(3)attacker.com使用plug-in去去vulnerable.com加载这个polyglot并加载为恶意文件的类型;
(4)这个polyglot就会在vulnerable.com执行,就能对vulnerable.com造成伤害。

参考

  1. https://blog.csdn.net/ybdesire/article/details/132925927?spm=1001.2014.3001.5501
  2. Luke Koch etc. Toward the Detection of Polyglot Files. 2022
  3. DETECTION OF MALICIOUS POLYGLOT. US11386205B2. 2019
  4. Suman Jana and Vitaly Shmatikov. Abusing File Processing in Malware Detectors for Fun and Profit. 2012
  5. https://github.com/mindcrypt/polyglot
  6. Jonas Magazinius etc. Polyglots: Crossing Origins by Crossing Formats. CCS2013
  7. https://ruanyifeng.com/blog/2016/04/same-origin-policy.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/248680.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 联合索引

文章目录 1.简介2.最左匹配3.最左匹配原理4.如何建立联合索引?5.覆盖索引参考文献 1.简介 联合索引指建立在多个列上的索引。 MySQL 可以创建联合索引(即多列上的索引)。一个索引最多可以包含 16 列。 联合索引可以测试包含索引中所有列的查询&#…

十一、常用API——练习

常用API——练习 练习1 键盘录入:练习2 算法水题:练习3 算法水题:练习4 算法水题:练习5 算法水题: 练习1 键盘录入: 键盘录入一些1~100之间的整数,并添加到集合中。 直到集合中所有数据和超过2…

windows下postgresql的安装使用

一、安装 1、安装包安装 1.1 下载exe安装包 选择安装包:官网 或者点击下载:postgresql-12.12-1-windows-x64.exe Tip:此时若报错:There has been an error.An error occured executing the Microsoft VC runtime installer。 参…

【Tomcat与网络5】再论Tomcat的工作过程与两种经典的设计模式

前面两篇,我们重点分析了Tomcat的容器和连接器的基本设计,今天我们来看一下两个机构如何在service的调度下进行协同工作的。 目录 1.模板模式与Tomcat的重用性设计 2.观察者模式与Tomcat可扩展性设计 1.模板模式与Tomcat的重用性设计 首先&#xff0…

SELINUX导致的网络服务问题解决

第一:开启相关服务,监控SELINUX 相关服务:setroubleshoot,auditd,大多数都是以se开头的 如果没有此服务,先yum下,然后查看状态 这里关于auditd说明,centos7不可以用systemctl重启auditd服务,…

大象机器人六轴协作机械臂myCobot 320 进行手势识别

引言 我是一名专注于机器学习和机器人技术自由者。我的热情始于大学期间的人工智能课程,这促使我探索人机交互的新方法。尤其对于机械臂的操作,我一直想要简化其复杂性,使之更加直观和易于使用。 这个项目的灵感源自于我对创新技术的热爱以及…

如何保证MySQL数据一致性

在当今大数据时代,数据库系统扮演着至关重要的角色,而MySQL作为一种流行的关系型数据库管理系统,在数据一致性方面拥有着丰富的机制和技术。下面简单的探讨MySQL是如何保证数据一致性的。 事务与ACID特性 要了解MySQL如何保证数据一致性&am…

【JAVA】Long类型返回到前端,精度丢失

一. 问题阐述 20位long类型的数字,从后端接口返回到前端后【四舍五入】 MYSQL端 (1)bigint (20) (2)具体某一条数据 JAVA端 (1)实体类 (2)服务类 (3&…

32GPIO输入LED闪烁蜂鸣器

目录 一.GPIO简介 二.具体电路结构 三.具体的GPIO模式 四.GPIO的寄存器 五.stm32外部的设备和电路 六.代码实现 一.点亮LED 二.LED闪烁 三.LED流水灯 四.蜂鸣器 一.GPIO简介 所有的GPIO都挂载到APB2上&#x…

统计学-R语言-7.3

文章目录 前言总体方差的检验一个总体方差的检验两个总体方差比的检验 非参数检验总体分布的检验正态性检验的图示法Shapiro-Wilk和K-S正态性检验总体位置参数的检验 练习 前言 本篇文章继续对总体方差的检验进行介绍。 总体方差的检验 一个总体方差的检验 在生产和生活的许多…

电脑可以设置代理IP吗

首先需要回答的是,电脑可以设置代理IP,下面我们详细说说如何设置。 首先,我们使用工具来完成,使用工具的好处就是可以设置单独的软件使用代理,也可以设置全局,比较方便 我们解压这个文件出来,打…

pytest框架的基本使用

1. 测试框架的作用 测试框架不关系用例的内容 它关心的是:用例编排和结果收集 2. pytest框架的特点 1. 适用于python语言 2. 用法符合python风格 3. 有丰富的生态 3. 安装pytest框架 1. 新建一个项目 2. 在项目终端窗口输入如下命令,用于安装py…

redisTemplate.opsForValue()

redisTemplate ​在Spring Data Redis中,redisTemplate 是一个非常重要的组件,它为开发者提供了各种操作 Redis 的方法。对于 opsForValue() 方法,它是用来获取一个操作字符串值的操作对象。这意味着你可以使用它来执行各种字符串相关的操作…

Linux进程间通信(IPC)机制之一:共享内存

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:Nonsense—Sabrina Carpenter 0:50━━━━━━️💟──────── 2:43 🔄 ◀️ ⏸ ▶️ …

【Linux C | 网络编程】getsockname 和 getpeername函数详解及C语言例子

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

Opencv——霍夫变换

霍夫直线变换 霍夫直线变换(Hough Line Transform)用来做直线检测 为了加升大家对霍夫直线的理解,我在左图左上角大了一个点,然后在右图中绘制出来经过这点可能的所有直线 绘制经过某点的所有直线的示例代码如下,这个代码可以直接拷贝运行 import cv2 as cv import matplot…

Android systemui 编译

目录 简介: 一、步骤 二、下载源码 三、环境配置 四、确定好需要编译版本 五、编译SystemUI 步骤1:进入源代码目录 步骤2:初始化编译环境 步骤3:选择目标设备 步骤4:编译SystemUI 步骤5:查找生成…

Unity3D正则表达式的使用

系列文章目录 unity工具 文章目录 系列文章目录前言一、匹配正整数的使用方法1-1、代码如下1-2、结果如下 二、匹配大写字母2-1、代码如下1-2、结果如下 三、Regex类3-1、Match()3-2、Matches()3-3、IsMatch() 四、定义正则表达式…

ModelArts加速识别,助力新零售电商业务功能的实现

前言 如果说为客户提供最好的商品是产品眼中零售的本质,那么用户的思维是什么呢? 在用户眼中,极致的服务体验与优质的商品同等重要。 企业想要满足上面两项服务,关键在于提升效率,也就是需要有更高效率的零售&#…

ISCTF wp

web 圣杯战争 题目源码 <?php highlight_file(__FILE__); error_reporting(0);class artifact{public $excalibuer;public $arrow;public function __toString(){echo "为Saber选择了对的武器!<br>";return $this->excalibuer->arrow;} }class pre…