恶意Bot流量识别分析实践

1、摘要

随着互联网的发展，自动化工具和脚本（Bots）的使用越来越普遍。虽然一些善意 Bots 对于网站的正常运行和数据采集至关重要，但恶意 Bots 可能会对网站带来负面影响，如爬取敏感信息、恶意注册、刷流量等。因此，检测和分析 Bot 流量变得至关重要。

Bot恶意流量检测手段大致可分为前端检测和后端数据分析，前端包括设备指纹获取、浏览器插件信息获取等，后端主要是制定检测模型，与威胁情报、IP信誉等手段结合。在整个恶意流量识别过程中，前端与后端的两者相辅相成。

在这篇文章中，我们将基于网宿自身站点的访问日志分析，探讨如何使用后端基础检测方案来分析识别恶意Bot流量，包括 IP 情报、 User-Agent、 TLS 指纹、请求头特征等。

2、情报与检测策略

威胁情报是支撑后端检测模型最重要的数据之一，通过这些信息，安全专家可以更好地预防、检测和应对网络攻击。持续更新和共享威胁情报是防范恶意Bot攻击的关键步骤，能够大幅提升整体防御水平，保障网络的稳定和安全。我们可以通过以下方式来检测恶意Bots请求：

IP情报

IP作为互联网的身份标识，一直是黑灰产竞争最激烈的资源。随着防护手段的升级，黑产技术也在快速发展，秒播代理、4G代理代理、动态住宅代理成为当前主流的黑产IP资源，大量应用于各种Bot场景中，包括恶意刷量、注册、抢票、薅羊毛等，由于其代理的隐匿性较高，特征难以被发现，因此对互联网安全存在较高的威胁。因此如何收集IP情报以及使用IP情报在恶意Bot流量检测中显得尤为重要。

特性	秒播IP	4G代理	动态住宅代理
来源	数据中心服务器	移动运营商4G网络	互联网服务提供商（ISP）
隐匿性	较低，易被识别为代理IP	高，难以被识别为代理IP	高，难以被识别为代理IP
动态变化	可以快速切换，但仍较易被识别	高频率动态变化，隐匿性强	动态变化，隐匿性强
带宽和性能	高带宽和高性能，适合大规模数据传输	带宽有限，性能受移动网络环境影响	较低带宽，受家庭网络环境限制
成本	较低	较高	较高
应用场景	数据抓取、网络营销、自动化测试	账号注册登录、广告点击、投票、反爬虫绕过	反爬虫绕过、广告验证、访问受限内容

对IP特征和行为上分析有助于我们持续定位和收集威胁情报：

地理位置过滤：正常用户的访问通常来自全球各地，而恶意Bot可能集中在特定的国家或地区。例如，短时间内来自同一个IP段的访问，如图1所示。

图1 异常IP段

ISP和数据中心过滤：普通用户通常使用家庭宽带或移动网络，而恶意Bot 流量IP通常来自于云厂商或者数据中心，识别这些ISP信息，可以帮助过滤潜在的恶意流量，如图2所示。

图2 数据中心IP

DDoS攻击源：DDoS攻击场景与恶意Bot场景通用需要使用代理或者僵尸网络，同一批恶意IP通常不会只发起一次攻击，而是会被多次使用，如图3所示。

图3 DDoS攻击源

TLS指纹

TLS指纹是一种极其有效的工具，通过对TLS客户端client hello包中的不同字段进行深入分析，我们可以生成独特的JA4指纹并利用这些指纹来识别特定的恶意Bot流量。此前我们已着重对TLS指纹进行深度分析，在本文中不再赘述，感兴趣的读者可以访问文章：https://www.freebuf.com/articles/web/393136.html

TLS策略详情	描述
Chrome 指纹异常	User_agent为Chrome，但是实际tls指纹不匹配
Firefox 指纹异常	User_agent为Firefox，但是实际tls指纹不匹配
MS Edge 指纹异常	User_agent为Edge，但是实际tls指纹不匹配
Safari 指纹异常	User_agent为Safari，但是实际tls指纹不匹配
IE 指纹异常	User_agent为IE，但是实际tls指纹不匹配
Opera 指纹异常	User_agent为Opera，但是实际tls指纹不匹配
不常见的指纹	tls指纹异常并且很少见