Python爬虫猿人学逆向系列——第六题

题目:采集全部5页的彩票数据,计算全部中奖的总金额(包含一、二、三等奖)

在这里插入图片描述

地址:https://match.yuanrenxue.cn/match/6

本题比较简单,只是容易踩坑。话不多说请看分析。

在这里插入图片描述

两个参数,一个m一个f,与cookie无关,但是这里会遇到第一个坑,在响应数据中。

在这里插入图片描述

可以发现只有三等奖的金额,并没有一等奖和二等奖的金额。所以我们需要找到三者的关系。直接来到source中查看。

在这里插入图片描述

直接搜索value,一共17个结果,一个一个观察。在第12个时,其相关的内容。

在这里插入图片描述

这里意思是总金额为三等奖的24倍,具体是不是这样呢,我们来验证一下。

在这里插入图片描述

还真是,那么就是说总中奖金额就是总三等奖金额的24倍。第一个坑解决。接下来开始逆向参数,刚刚已经知道了需要的参数就两个,m和q,传书的是parmas参数,所以我们直接来跟栈。

在这里插入图片描述

跟到请求时的栈,代码非常简单,如下:

在这里插入图片描述

找到之后直接打上断点,先看m的值。

在这里插入图片描述

这里就是入口函数,可以看到当window.o的值大于等于6的时候就会重新加载页面,那估计这个window.o可能是会增加的,并且有可能和页数有关。

在这里插入图片描述

现在它的值为1,访问下一页看看。

在这里插入图片描述

果然,变成2了,那也就是说我们在本地运行的时候他不可能大于等于6,因为我们最多就循环五次爬个五页,根本不说手抖戳它这么多下。所以这里的代码我们就可以稍微简化一下不要r函数了,直接一步到位到z函数。

在这里插入图片描述

z函数其实熟悉js的话一看就知道这就是webpack的调用的方式。翻到最上方

在这里插入图片描述

果然,就是一个webpack,那还不简单,模块加载器如此的标准,我都不好意思去删删改改了,直接全部copy。接下来就调用z函数看看会出现什么样的问题了。

在这里插入图片描述

window没有定义,那我们就给他定义一个window。在最开头加上一个var window = global;然后再执行,就会发现一样的错误,这个时候大家就会发现了,报的是window.o = 1这个位置的window没有定义。那问题来了,大家ctrl+f搜索看看,这代码里面有没有window.o呢?答案是没有。

所以,window.o在肯定是在代码中,至于为什么搜不到,那当然就是被混淆了,所以我们就来看看混淆的代码,就在最开头的位置,一个很明显的AA混淆,将它还原一下,这种混淆由专门的工具还原,手动还原的话就直接去掉最后的括号然后执行就可以了。

在这里插入图片描述

去掉最后的括号后可以看到这混淆的代码就是一个匿名函数,这个函数的逻辑就是给window.o进行赋值,值为1,所以我们将这段混淆代码替换成window.o = 1就可以了。

在这里插入图片描述

接下来就是下一个错误了,关键词ASN1,这个相当于也是考了一下对js的熟悉程度,就看大家平时经验的积累了,ASN1就是一个js的解码器,它能够解码任何有效的base64的编码或者十六进制编码的DER或BER结构,这个玩意儿在浏览器中一般都是存在的,但问题是nodejs不存在啊。所以,既然这个问题出现了,那肯定就是代码中出现了nodejs无法解码的存在了,那我们就来慢慢找一下这些代码都在什么地方。一直翻一直翻。

在这里插入图片描述

找到了,1161行,大家和我的误差应该就几行的误差,自己找很废时间,反正我眼睛看瞎了已经。这很明显又是一段混淆代码,jsfuck的混淆,老规矩,还原一下。直接全部复制到console中执行一下看看结果是什么。

在这里插入图片描述

就是一个false…那就直接替换了吧。再执行代码,会发现还是这个错误。

在这里插入图片描述

那证明这里面可能还有,已经找到过一次有经验了,知道了是jsfuck混淆,那我们就搜一下特殊符号![

在这里插入图片描述

果然,又来了。直接还原替换

在这里插入图片描述

啥也不是,那就直接删掉。然后再执行,还是会报了这个错误,但是这个时候代码中已经没有混淆代码了,那问题来了,什么原因导致的呢,定位到报错的2559行,看下能不能删除这个逻辑?

在这里插入图片描述

好吧,根本删不掉,关联度太高。那问题来了,从这里来看的话ASN1是在本地赋值进去的,那么就是说就算本地nodejs本身没有的话这里应该也赋值进去了,为啥还会报这样的错呢?那就是说window.ASN1压根没有去赋值,要么就是直接没有window了。那就有点意思了,我们来搜索一下window。

在这里插入图片描述

一共是14个,但是…webpack里面那个window是来捣乱的吧。前面先用了window.o要我们先赋值了,你自执行里面又要置空?这不闹呢嘛?直接删掉。

在这里插入图片描述

完事,直接出结果。这里其实就涉及的是浏览器的环境和nodejs环境的不同,在浏览器中window是不能被重新赋值的,所以webpack中的这个置空并没有任何意义,但是在nodejs中就不一样了,window可以被重新赋值,因此就直接导致了上方我们看到的错误信息了。

搞定之后我们来对比一下浏览器中的值和本地执行的结果是否能够匹配上了。将浏览器中传入的参数复制下来运行一下(刷新了下页面重新获取的两个参数值)。

在这里插入图片描述

在这里插入图片描述

两个结果完全一致,那么到这里参数m就完成了。

接下来就是q参数,q参数从逻辑来看

在这里插入图片描述

就是其拼接出来的格式就是1-1692867522000|这样的,但是这里需要注意,由于我们会话并没有保持,相当于每一次都是一个新的请求,同时浏览器中window.o能够每次执行js代码的时候自增,但本地可不会,所以我们就按照每次都是全新的请求来实现参数q,如果是浏览器中那样的格式的话最终会将前面的值拼接起来,如下:

在这里插入图片描述

但我们本地的话就不能再拼接了,否则是会触发这个页面的风控的,接下来就给大家看一下这两种情况在本地的时候的结果,一个能够成功获取值,一个则触发风控。先来写一个js代码的入口函数。

function run(o) {t = Date.parse(new Date())res = z(t, o);return {'m': res,'t': t,}
}

第一种情况,触发风控。

在这里插入图片描述

这就是按照浏览器模式来实现q值时的结果,所以直接全新请求即可,不用拼接前面的值。

在这里插入图片描述

最后将所有的value加起来再乘以24就获取到正确答案了,答案为6883344
在这里插入图片描述

完整代码请转https://gitee.com/shuailiuquan/spider-code/tree/master

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/104452.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS中如何实现多列布局?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 多列布局(Multi-column Layout)⭐ column-count⭐ column-width⭐ column-gap⭐ column-rule⭐ column-span⭐ 示例⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧…

QT中资源文件resourcefile的使用,使用API完成页面布局

QT中资源文件resourcefile的使用 之前添加图标的方法使用资源文件的方法创建资源文件资源文件添加前缀资源文件添加资源使用资源文件中的资源 使用API完成布局使用QHBoxLayout完成水平布局使用QVBoxLayout完成垂直布局使用QGridLayout完成网格布局 在Qt中引入资源文件好处在于他…

pnpm无法加载文件 (解决方法 )

现在要运行一个TS的项目,我的电脑上没有安装pnpm,导致我的vscode一直报错无法加载。 pnpm安装: npm install -g pnpm pnpm : 无法加载文件 pnpm : 无法加载文件 C:\Users\HP\AppData\Roaming\npm\pnpm.ps1,因为在此系统上禁止运…

若依前后端分离版本项目总结笔记

若依前后端分离学习笔试 1.路由问题 注意这个是前端找到你的路由的路径。 2.表格开关按钮快速实现 <el-table-column label"状态" align"center" key"status"><template slot-scope"scope"><el-switchv-model"s…

DevExpress WinForms数据编辑器组件,提供丰富的数据输入样式!(二)

DevExpress WinForms超过80个高影响力的WinForms编辑器和多用途控件&#xff0c;从屏蔽数据输入和内置数据验证到HTML格式化&#xff0c;DevExpress数据编辑库提供了无与伦比的数据编辑选项&#xff0c;包括用于独立数据编辑或用于容器控件(如Grid, TreeList和Ribbon)的单元格。…

柔性数组详解

柔性数组 1.前言 在c99标准中&#xff1a;允许结构体的最后一个变量是未知大小的数组&#xff0c;这就是柔性数组的来源。 例如&#xff1a; typedef struct type_a{ int i;int a[0];//柔性数组成员 }type_a;有些编译器可能会报错&#xff0c;那就使用下面这一种定义方式&…

房屋结构健康监测,科技助力让建筑更安全

房屋建筑是人们赖以生存的场所&#xff0c;然而当前我国许多房屋已经达到了使用寿命的中期&#xff0c;房屋的安全系数逐年降低&#xff0c;风险也随着时间的推移而累积。长期以来&#xff0c;我国的房屋普遍存在寿命短、隐患多的问题&#xff0c;“重建设&#xff0c;轻管理”…

4.网络设计与redis、memcached、nginx组件(一)

网络组件系列文章目录 第四章 网络设计与redis、memcached、nginx组件 文章目录 网络组件系列文章目录文章的思维导图前言一、网络相关的问题&#xff0c;网络开发中要处理那些问题&#xff1f;网络操作IO连接建立连接断开消息到达消息发送网络操作IO特性 二、网络中IO检测IO函…

ssm+vue毕业论文管理系统源码和论文

ssmvue毕业论文管理系统053 开发工具&#xff1a;idea 数据库mysql5.7 数据库链接工具&#xff1a;navcat,小海豚等 技术&#xff1a;ssm 摘 要 高校规模越来越大&#xff0c;学生越来越多&#xff0c;每年都有大批的大学生完成学业。毕业之前&#xff0c;各大高校设立…

浅谈Python网络爬虫应对反爬虫的技术对抗

在当今信息时代&#xff0c;数据是非常宝贵的资源。而作为一名专业的 Python 网络爬虫程序猿&#xff0c;在进行网页数据采集时经常会遭遇到各种针对爬虫行为的阻碍和限制&#xff0c;这就需要我们掌握一些应对反爬机制的技术手段。本文将从不同层面介绍如何使用 Python 进行网…

linux系统(centos、ubuntu、银河麒麟服务、uos、deepin)判断程序是否已安装,通用判断方法:使用所有应用和命令的判断

前言 项目中需要判断linux服务器中是否已经安装了某个服务 方法有很多种&#xff0c;但是很多都不通用&#xff0c; 脚本代码就不容易做成统一的 解决方案 用下面的脚本代码去进行判断 用jdk测试 脚本意思如下&#xff1a; 输入java -version命令&#xff0c;将返回的字…

spring boot 3使用 elasticsearch 提供搜索建议

业务场景 用户输入内容&#xff0c;快速返回建议&#xff0c;示例效果如下 技术选型 spring boot 3elasticsearch server 7.17.4spring data elasticsearch 5.0.1elasticsearch-java-api 8.5.3 pom.xml <dependency><groupId>org.springframework.boot</gr…

淘宝免费爬虫数据 商品详情数据 商品销售额销量API

场景&#xff1a;一个宽敞明亮的办公室&#xff0c;一位公司高管坐在办公桌前。 高管&#xff08;自言自语&#xff09;&#xff1a;淘宝&#xff0c;这个平台上商品真是琳琅满目&#xff0c;应该有不少销售数据吧。我该怎么利用这些数据呢&#xff1f; 突然&#xff0c;房间…

Qt 自定义菜单、右键菜单

在接触Qt这段时间以来&#xff0c;经常遇到菜单项的问题&#xff08;右键菜单、托盘菜单、按钮菜单等&#xff09;&#xff0c;QMenu用于菜单栏,上下文菜单,弹出菜单等&#xff0c;利用QMenuQAction就可以达到效果&#xff01; 右键菜单实现&#xff1a;通过重写contextMenuEv…

C++(8.21)c++初步

1.斐波那契&#xff1a; #include <iostream> #include<iomanip>using namespace std;int main() {cout << "Hello World!" << endl;int a[10];for(int i0;i<10;i){if(0i||1i){a[i]1;}elsea[i]a[i-1]a[i-2];cout <<setw(4) <&l…

【JavaEE基础学习打卡06】JDBC之进阶学习PreparedStatement

目录 前言一、PreparedStatement是什么二、重点理解预编译三、PreparedStatement基本使用四、Statement和PreparedStatement比较1.PreparedStatement效率高2.PreparedStatement无需拼接参数3.PreparedStatement防止SQL注入 总结 前言 &#x1f4dc; 本系列教程适用于JavaWeb初学…

mac地址、ip地址、子网掩码、端口

1. mac地址 又称为网络适配器或者网络接口卡NIC&#xff0c;但是现在更多人原因使用更简单的名称"网卡"&#xff0c;通过网卡能够是不同的计算机之间相互连接&#xff0c;从而完成数据通信的功能 每一个网卡在出厂的时候 都会给分配到一个编号&#xff0c;类似与身份…

移动web开发rem适配布局

移动web开发rem适配布局 学习目标: 能够使用rem单位能够使用媒体查询的基本语法能够使用Less的基本语法能够使用Less中的嵌套能够使用Less中的运算能够使用2种rem适配方案 1.rem单位基础 2.媒体查询 2.1什么是媒体查询 媒体查询是css3的新语法 使用media查间&#xff0c…

MySQL回表是什么?哪些情况下会回表

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;全栈领域新星创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年6月CSDN上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师&#xff0c;项目技术负责…

Java设计模式-抽象工厂模式

简介 设计模式是软件设计中的一种常见方法&#xff0c;通过定义一系列通用的解决方案&#xff0c;来解决常见的软件设计问题。其中&#xff0c;抽象工厂模式是一种非常常见的设计模式&#xff0c;它可以帮助我们创建一组相关的对象&#xff0c;而不需要指定具体的实现方式。 …