【网络安全】——协议逆向与频繁序列提取:从流量中解码未知协议

目录

引言

一、为什么要结合频繁序列提取?

二、四步融合分析法

步骤1:原始流量采集与预处理

步骤2:多粒度序列模式挖掘

层1:单包内字节级频繁项

层2:跨数据包的行为序列

步骤3:关键字段定位与结构假设

通过频繁模式推导协议结构:

步骤4:动态验证与协议还原

三、实战案例:Pj某工控设备协议

背景

关键发现过程

四、对抗干扰策略

常见干扰类型与破解技巧

五、工具链推荐

六、总结


引言

在工业控制、物联网设备通信等场景中,面对私有协议时,工程师常陷入**“盲人摸象”**的困境——没有文档、没有符号信息,只有一串串难以理解的十六进制数据流。本文将提出一种创新方法:将频繁序列提取技术融入协议逆向工程,通过挖掘数据中的统计规律,快速定位协议头、指令类型、校验位等关键字段,大幅提升逆向效率。


一、为什么要结合频繁序列提取?

传统协议逆向依赖人工比对数据包差异,存在三大痛点:

  1. 效率低下:数百个数据包需逐一对比

  2. 主观性强:依赖经验猜测字段含义

  3. 易漏特征:难以发现长跨度关联

频繁序列提取的价值

  • 自动发现高频出现的固定字节序列(如协议头、状态码)

  • 识别指令与响应的关联模式(如A指令必触发B响应)

  • 定位变长字段的分隔符(如0x00结尾的字符串)


二、四步融合分析法

步骤1:原始流量采集与预处理

使用Wireshark捕获原始流量,按会话切分并转换为字节序列:

# 示例:从pcap提取TCP负载序列
from scapy.all import *packets = rdpcap("unknown_protocol.pcap")
sessions = packets.sessions()byte_sequences = []
for session in sessions.values():tcp_payloads = [bytes(p[TCP].payload) for p in session if TCP in p]if tcp_payloads:  byte_sequences.append(tcp_payloads)  # 每个会话的包序列

步骤2:多粒度序列模式挖掘

层1:单包内字节级频繁项
from mlxtend.frequent_patterns import apriori# 将每个字节位置视为一个项(item)
# 示例数据包: [0xaa, 0x01, 0xff], [0xaa, 0x02, 0xee]
transactions = [{'pos0:aa', 'pos1:01', 'pos2:ff'},{'pos0:aa', 'pos1:02', 'pos2:ee'}
]freq_items = apriori(transactions, min_support=0.5, use_colnames=True)
print(freq_items)

输出

   support      itemsets
0     1.0       (pos0:aa)  # 发现协议头固定为0xAA
层2:跨数据包的行为序列

使用PrefixSpan挖掘会话级操作码序列:

# 假设已从数据包中提取操作码(如第二个字节)
opcode_sequences = [[0x01, 0x03, 0x04],  # 会话1的操作码流[0x01, 0x04],         # 会话2[0x01, 0x03, 0x04]    # 会话3
]from prefixspan import PrefixSpan
ps = PrefixSpan(opcode_sequences)
ps.minlen = 2
freq_seqs = ps.frequent(2)  # 最小支持度2次# 输出:[(2, [0x01, 0x03]), (2, [0x01, 0x03, 0x04])]

结论:操作码0x01后常跟0x03,可能为登录→查询信息的固定流程。


步骤3:关键字段定位与结构假设

通过频繁模式推导协议结构:
字段位置候选假设验证方法
字节0固定头(Magic Number)全样本一致性检查
字节1指令类型(高频出现0x01)触发不同功能观察响应变化
字节4-5长度字段(与后续数据长度相关)计算Pearson相关系数
末2字节校验和(与前面数据存在数学关系)尝试CRC16/CRC32计算匹配

步骤4:动态验证与协议还原

编写脚本自动化验证假设:

def validate_checksum(packet):assumed_crc = packet[-2:]calculated_crc = crc16(packet[:-2])return assumed_crc == calculated_crcvalid_count = 0
for p in packets:if validate_checksum(p):valid_count +=1print(f"校验通过率: {valid_count/len(packets)*100}%")  
# 若通过率接近100%,则确认校验位假设正确

三、实战案例:Pj某工控设备协议

背景

某PLC设备通信协议未知,需实现以下功能逆向:

  • 读取寄存器值(功能码)

  • 设置设备地址(地址字段)

  • 异常状态码解析

关键发现过程

  1. 频繁头定位

    80%的数据包以0x48 0x53开头 → 确认为协议头
  2. 指令类型推断

    第3字节出现0x01(读)和0x02(写)的频率最高 → 功能码字段
  3. 地址字段验证

# 对比两个写地址请求包:
Packet1: 48 53 02 00 01 02 [00 00 00 01] ... 
Packet2: 48 53 02 00 01 02 [00 00 00 02] ...
# 响应包中地址字段变化 → 确认第7-10字节为设备地址

    4. 错误码提取

         当响应包第4字节为0xFF时,末字节出现0x01/0x02 → 错误子码


四、对抗干扰策略

常见干扰类型与破解技巧

干扰手段破解方法
随机填充字节过滤低频率项,关注稳定出现的字段
多协议复用先聚类(如按端口、包长),再分别分析
字段动态编码寻找编码前后的统计特征(如字节分布变化)
心跳包干扰剔除固定时间间隔的无关包

五、工具链推荐

  1. 流量预处理:Wireshark + Scapy(Python)

  2. 序列挖掘:SPMF(支持GSP、PrefixSpan算法)

  3. 自动化验证:Python + pwntools(自定义协议测试脚本)

  4. 可视化分析:NetworkX(绘制协议状态转移图)


六、总结

“数据即协议”——通过融合频繁序列提取与协议逆向技术,开发者能在无先验知识的情况下,快速定位关键字段并推测交互逻辑。该方法尤其适用于具有明显统计特征的私有协议逆向场景。

方法论价值

  • 将人工经验转化为可量化的模式识别

  • 为协议逆向提供自动化切入点

  • 降低对特定领域知识的依赖


扩展阅读标签#协议逆向 #频繁序列 #工控安全 #Python #Wireshark

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28640.html

    如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    IntelliJ IDEA 2024.3.4 版本无法正常加载maven项目

    报错如下: Possible solutions: - Check that Maven settings.xml does not contain http repositories - Check that Maven pom files do not contain http repository http://192.168.22.76:9003/repository/thirdparty/ - Check that Maven pom files do not co…

    Select 下拉菜单选项分组

    使用<select>元素创建下拉菜单&#xff0c;并使用 <optgroup> 元素对选项进行分组。<optgroup> 元素允许你将相关的 <option> 元素分组在一起&#xff0c;并为每个分组添加一个标签。 <form action"#" method"post"><la…

    靶场(二)---靶场心得小白分享

    开始&#xff1a; 看一下本地IP 21有未授权访问的话&#xff0c;就从21先看起 PORT STATE SERVICE VERSION 20/tcp closed ftp-data 21/tcp open ftp vsftpd 2.0.8 or later | ftp-anon: Anonymous FTP login allowed (FTP code 230) |_Cant get dire…

    【JavaScript — 前端快速入门】 JavaScript 引入方式

    JavaScript 1. JavaScript 介绍 1.1 什么是JavaScript? 最初在网景公司&#xff0c;该语言命名为 LiveScript&#xff0c;当时网景公司认为&#xff0c;Java 作为当时最流行的编程语言&#xff0c;带有 “Java” 的名字有助于这门新生语言的传播&#xff0c;将 LiveScript 命名…

    5c/c++内存管理

    1. C/C内存分布 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] { 1, 2, 3, 4 };char char2[] "abcd";const char* pChar3 "abcd";int* ptr1 (int*)malloc(sizeof(int) * 4);i…

    vulnhub靶场之【digitalworld.local系列】的mercy靶机

    前言 靶机&#xff1a;digitalworld.local-mercy&#xff0c;IP地址为192.168.10.11 攻击&#xff1a;kali&#xff0c;IP地址为192.168.10.6 kali采用VMware虚拟机&#xff0c;靶机选择使用VMware打开文件&#xff0c;都选择桥接网络 这里官方给的有两种方式&#xff0c;一…

    SqlSugar 语法糖推荐方式

    //方式1&#xff1a;var dd _repository._Db.Queryable<ConfigAggregateRoot, UserRoleEntity>((o, p) > o.Id p.Id).Select((o, p) > new{o.Id,o.Remark,p.RoleId,});//方式2&#xff1a;不推荐使用&#xff0c;建议优先使用 Lambda 表达式&#xff0c;因为它更…

    unity学习63,第2个小游戏:用fungus做一个简单对话游戏

    目录 1 目标用fungus做一个简单的剧情对话游戏 1.1 先创建一个新的3D项目 1.2 fungus是什么 1.2.1 怎么获得 1.2 在AssetStore里搜索fungus (插件类)--千万别买收费的错的&#xff01; 1.3 fungus的官网 1.3.1 官网给的3个下载链接&#xff0c;unity的果然已经失效了 …

    【RabbitMQ】Producer之TTL过期时间 - 基于AMQP 0-9-1

    这篇文章和大家分享Producer发布消息时如何设置消息过期时间&#xff0c;包括队列级别和消息级别&#xff0c;还有如何设置队列的过期时间。 消息过期时间 给消息设置TTL&#xff0c;在超过TTL值后&#xff0c;消息就会变成dead message&#xff08;死信&#xff09;&#xf…

    2025.3.2机器学习笔记:PINN文献阅读

    2025.3.2周报 一、文献阅读题目信息摘要Abstract创新点网络架构实验结论不足以及展望 一、文献阅读 题目信息 题目&#xff1a; Physics-Informed Neural Networks of the Saint-Venant Equations for Downscaling a Large-Scale River Model期刊&#xff1a; Water Resource…

    【HeadFirst系列之HeadFirst设计模式】第14天之与设计模式相处:真实世界中的设计模式

    与设计模式相处&#xff1a;真实世界中的设计模式 设计模式是软件开发中的经典解决方案&#xff0c;它们帮助我们解决常见的设计问题&#xff0c;并提高代码的可维护性和可扩展性。在《Head First设计模式》一书中&#xff0c;作者通过生动的案例和通俗的语言&#xff0c;深入…

    基于物联网技术的电动车防盗系统设计(论文+源码)

    1总体设计 本课题为基于物联网技术的电动车防盗系统&#xff0c;在此将整个系统架构设计如图2.1所示&#xff0c;其采用STM32F103单片机为控制器&#xff0c;通过NEO-6M实现GPS定位功能&#xff0c;通过红外传感器检测电瓶是否离开位&#xff0c;通过Air202 NBIOT模块将当前的数…

    玩转大语言模型——Ubuntu系统环境下使用llama.cpp进行CPU与GPU混合推理deepseek

    系列文章目录 玩转大语言模型——使用langchain和Ollama本地部署大语言模型 玩转大语言模型——三分钟教你用langchain提示词工程获得猫娘女友 玩转大语言模型——ollama导入huggingface下载的模型 玩转大语言模型——langchain调用ollama视觉多模态语言模型 玩转大语言模型—…

    Redis——快速入门

    目录 Redis简介 安装配置(Windows) GUI工具RedisInsight的使用 十大数据类型&#xff08;5基本5高级&#xff09; 字符串String 列表List 集合Set(S) 有序集合SortedSet(Z) 哈希Hash(H) 发布订阅模式 消息队列Stream(X) 地理空间Geospatial(GEO) HyperLogLog(PF) …

    MQ保证消息的顺序性

    在消息队列&#xff08;MQ&#xff09;中保证消息的顺序性是一个常见的需求&#xff0c;尤其是在需要严格按顺序处理业务逻辑的场景&#xff08;例如&#xff1a;订单创建 → 支付 → 发货&#xff09;。 一、消息顺序性被破坏的原因 生产者异步/并行发送&#xff1a;消息可能…

    SPI驱动(二) -- SPI驱动程序模型

    文章目录 参考资料&#xff1a;一、SPI驱动重要数据结构1.1 SPI控制器数据结构1.2 SPI设备数据结构1.3 SPI驱动数据结构 二、SPI 驱动框架2.1 SPI控制器驱动程序2.2 SPI设备驱动程序 三、总结 参考资料&#xff1a; 内核头文件&#xff1a;include\linux\spi\spi.h 一、SPI驱…

    Gpt翻译完整版

    上一篇文章收到了很多小伙伴的反馈&#xff0c;总结了一下主要以下几点&#xff1a; 1. 说不知道怎么调api 2. 目前只是把所有的中文变成了英文&#xff0c;如果想要做多语言还需要把这些关键字提炼出来成放到message_zh.properties和message_en.properties文件中&#xff0c…

    图解MOE大模型的7个核心问题并探讨DeepSeekMoE的专家机制创新

    原文地址:https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts #mermaid-svg-FU7YUSIfuXO6EVHa {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-FU7YUSIfuXO6EVHa .error-icon{fill…

    windows电脑上安装llama-factory实现大模型微调

    一、安装环境准备 这是官方给的llama-factory安装教程&#xff0c;安装 - LLaMA Factory&#xff0c;上面介绍了linux系统上以及windows系统上如何正确安装。大家依照安装步骤基本能够完成安装&#xff0c;但是可能由于缺少经验或者相关的知识导致启动webUi界面运行相应内容时…

    vscode+vue前端开发环境配置

    目录 一、安装Vue二、使用vue新建项目 一、安装Vue 在node.js安装好之后&#xff0c; npm config set registry https://registry.npmmirror.com# 安装vue相关工具&#xff0c;webpack用来项目构建、打包、资源整合等。 npm install webpack -g# 安装vue-cli脚手架 npm insta…