一、网站运行时间轴
掌握网站运行时间轴,有助于我们对“请求参数加密”和“响应数据加密”这两种反爬手段的深入理解。
二、从网站运行的时间轴角度来理解两种反爬手段
1、加载HTML:
这是浏览器访问网站时的第一步,服务器会返回基础的HTML结构。在这个阶段,爬虫可以直接获取到HTML内容。
2、加载JS并初始化:
随后,浏览器会加载并执行网页中的JavaScript代码。这些代码可能包含重要的逻辑,比如数据加密、页面动态渲染等。
3、用户触发某个事件:
用户可能会在网页上进行一些操作,如点击按钮、填写表单等。这些操作会触发JavaScript事件。
4、调用某段JS加密参数:
在用户触发事件后,JavaScript可能会执行加密函数,对即将发送到服务器的数据进行加密。这是请求参数加密的关键步骤。加密后的参数对于爬虫来说难以理解,因为它们不再是明文形式。
5、给服务器发信息(XHR-SEND):
加密后的参数会通过XMLHttpRequest(XHR)或其他方式发送到服务器。这一步对于爬虫来说是一个挑战,因为即使能够截获请求,也难以解析加密的参数。
6、接收服务器数据:
服务器处理请求后,会返回响应数据。这些数据可能是加密的,特别是在响应数据加密的情况下。
7、调用某段JS解密响应:
浏览器接收到加密的响应数据后,会使用JavaScript中的解密函数将其解密为可读的形式。这一步对于爬虫来说同样是困难的,因为它们需要模拟执行JavaScript代码来解密数据。
8、刷新网页渲染:
最后,解密后的数据会被用来更新网页的内容或状态,用户可以看到新的信息。对于爬虫来说,如果能够成功解密数据并模拟网页的渲染过程,就能够获取到这些信息。
三、破解请求参数加密和响应数据加密思路
请求参数加密和响应数据加密的逆向思路,我专门出了两篇文章来说明,下面是文章的链接:
【学习心得】请求参数加密的原理与逆向思路http://t.csdnimg.cn/iXC8e【学习心得】响应数据加密的原理与逆向思路http://t.csdnimg.cn/Jr8oa
回顾之前的文章中,我提到的两种逆向思路的第一步都是【寻找入口,快速定位】,可见找到加解密的JS函数非常关键,但往往在逆向过程中面对众多JS文件,成千上万行JS代码时毫无头绪。因此我写这篇网络运行时间轴的目的就是给破解这两种反爬手段一个通用的思考路径。那就是深刻理解其加解密时机。
(1)请求参数加密反爬的加密时机
加密通常在用户触发某个事件后、发送请求之前进行。例如,在填写表单并提交时,JS代码可能会拦截表单提交事件,加密表单数据后再发送到服务器。加密的内容通常包括用户输入的数据、查询参数、API密钥等敏感信息。
于是可以通过这样的步骤来进行破解(寻找入口,快速定位的方法有很多这里介绍的步骤只起到一个抛砖引玉的作用):
- 第一步:寻找加密参数
- 第二步:定位发起程序
- 第三步:查看调用堆栈
- 第四步:分析加密入口
- 第五步:模拟加密过程
(2)响应数据加密反爬的解密时机
解密通常在接收到服务器响应后进行,但在将数据呈现给用户之前。例如,某小说网站的小说加密内容,就是在渲染给读者之前,通过JS代码解密成明文再呈现。响应数据加密通常涵盖服务器返回的所有数据类型,包括HTML内容、JSON数据、图片、视频等。
于是可以通过这样的步骤来进行破解(寻找入口,快速定位的方法有很多这里介绍的步骤只起到一个抛砖引玉的作用):
- 第一步:寻找加密数据
- 第二步:定位发起程序
- 第三步:查看调用堆栈
- 第四步:分析解密入口
- 第五步:模拟解密过程