裁判文书网2019年9月份最新爬虫

文书网在9月份终于更新了,上去看了一下,无比的流畅。秉持着一颗探索,天真的童心看看文书网这次更新有啥突破和进展,一言不合直接打开开发者工具,仔细寻找了一番,看到了一个可疑的连接,定睛一看,wc,参数这么多,加入参数,最后的返回值内竟然没有自己想要的文本内容,到底怎么弄!!!,可能很多小伙伴看到这里就开始怀疑自己了,这是啥玩意嘛,弄得这么复杂,还能不能愉快的玩耍了!在这里插入图片描述
可是没办法嘛,我们要紧跟时代的步伐,慢慢来。经过一两个小时,调试js,终于拨开云雾,海阔天空。下面我们一一来分析这些参数。
1、pageid 其实这个参数我们可以猜想,可能是根据页数,通过某个加密函数进行加密,可是当我进行调试的时候,发现在改变页数的同时,他是不发生改变的。所以上面猜想失败。我全局搜索了一下pageid,出现很多,其中一个函数他尤其的亮眼,是他,是他,就是他,人群中最亮的仔。
pageid
其实观察源码发现,他是传入一个数,循环32次,每次输出一个16进制的数组成,没有什么难度。
2、s8 表示案件类型,05代表的是国家赔偿与司法救助案件,这些在wenshulist1.js这个js内全都有标注,可以自己去看(可以自己修改)
3、sortFields表示按照法院层级降序排列(可以自己修改)
4、ciphertext 这个参数其实也很好找,全局搜索
ciphertext
可以简单看下逻辑,前面几行都比较简单,重点是在 var enc这边,这边用到了一个DES3加密,也是这次更新可能唯一的难点,传入三个参数加密后,再经过strTobinary函数处理,就能得到该参数,DES3加密的函数在下方:
在这里插入图片描述
大约稍微那么一丢丢能看得懂,其实看不懂也没关系,python执行js就好了。
5、pagenum 当前的页数
6、querycondition 将之前那个转成字典再转化成列表就好了
7、cfg 固定参数
8、__RequestVerificationToken 唯一标致,也是一次获取后,后面也可以不发生改变,全局搜索下,是由这边生成的

function random(size){var str = "",arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'];for(var i=0; i<size; i++){str += arr[Math.round(Math.random() * (arr.length-1))];}return str;}

以上所有参数都基本上有逻辑能够写出来了,但是得到这些参数成功请求后,网站的作者还设置了一道坎,就是他会返回两个值,一个result,一个secretkey(还真是秘密钥匙),将这两个参数再进行一次DES3解码就能得到json数据了。其实整体看下来,没有以前难,甚至还有那么一丢丢小简单,下面就贴下代码,大家参考就好。

# coding=utf-8
import requests
import time
import execjs
import base64
import json
from pprint import pprint
from Cryptodome.Cipher import DES3
from Cryptodome.Util.Padding import unpad, pad
"""
2019年9月份文书网spider更新,简单看了下文书网更新过后的加密方式,整体比以前简单不少,
总结起来大概就是ciphertext这个参数是变化的,其他的基本上不会改变,传入data获取数据后,会有一个
DES3解密,其他的好像没什么难点(有可能没遇到坑),就大概写个逻辑脚本,需要完善
"""# ----------------------------------自定义函数-------------------------------------------# 获取ciphertext参数
def get_cipher():with open ("c:\\Users\\包子xia\\Desktop\\file\\cipher.js",encoding='utf-8') as f:js = f.read()ctx =execjs.compile(js)cipher = ctx.call("cipher")return cipher# 获取DES解密后的返回值
def get_result(result,secretKey,date):des3 = DES3.new(key=secretKey.encode(), mode=DES3.MODE_CBC, iv=date.encode())decrypted_data = des3.decrypt(base64.b64decode(result))plain_text = unpad(decrypted_data, DES3.block_size).decode()return plain_text# 获取__RequestVerificationToken参数
def get_token():js = """ function random(size){var str = "",arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'];for(var i=0; i<size; i++){str += arr[Math.round(Math.random() * (arr.length-1))];}return str;}"""ctx = execjs.compile(js)result = ctx.call("random", "24")return result# 获取pageid
def get_pageid():js = """function happy() {var guid = "";for (var i = 1; i <= 32; i++) {var n = Math.floor(Math.random() * 16.0).toString(16);guid += n;// if ((i == 8) || (i == 12) || (i == 16) || (i == 20)) guid +=// "-";}return guid;}"""ctx = execjs.compile(js)pageid = ctx.call("happy")return pageid#-------------------------------自定义函数结束-----------------------------------------class wenshu(object):def __init__(self):self.session = requests.Session()self.headers = {"Cookie":"SESSION=f25ce583-7609-43ba-bb12-a0f3cdb15515","Host":"wenshu.court.gov.cn","Origin":"http://wenshu.court.gov.cn","User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",}def get_docid(self):"""文书列表页"""url = "http://wenshu.court.gov.cn/website/parse/rest.q4w"data = {"s8": "04","pageId": "%s" % get_pageid(),"sortFields": "s50:desc",  # 按照法院层级降序排列"ciphertext": "%s" % get_cipher(),"pageNum": "1","pageSize": "5","queryCondition": '[{"key":"s8","value":"04"}]',  # 这边可以自定义选择,04表示行政案件"cfg": "com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@queryDoc","__RequestVerificationToken": "%s" % get_token()}response = self.session.post(url, data=data,headers=self.headers)json_value = json.loads(response.text)secretKey = json_value["secretKey"]result = json_value["result"]data = json.loads(get_result(result, secretKey, time.strftime("%Y%m%d")))for key in data["queryResult"]["resultList"]:rowkey = key["rowkey"]self.detail_page(rowkey)def detail_page(self,docid):"""文书详情页"""url = "http://wenshu.court.gov.cn/website/parse/rest.q4w"data = {"docId": "%s" % docid,"ciphertext": get_cipher(),"cfg": "com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@docInfoSearch","__RequestVerificationToken": "%s" % get_token(),}response = self.session.post(url, data=data,headers=self.headers)json_value = json.loads(response.text)secretKey = json_value["secretKey"]result = json_value["result"]data = json.loads(get_result(result, secretKey, time.strftime("%Y%m%d")))pprint(data)if __name__ == '__main__':demo = wenshu()demo.get_docid()

结果
上面有一个js文件,我是用pyexecjs执行的,就不贴出来。本项目也是自己出于兴趣,想解析下看看。也是希望大家对网站手下留情,速度慢一点,温柔一点,这样对大家都好。

在此声明,如需转载,请标注来源。本文章也是记录自己的技术实践,绝无破坏网站运行的想法,如若被他人用于商业用途,与本人无关。同时欢迎访问个人博客主页… …

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48098.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

钉钉作弊软件开发者,被判 5 年半,为什么提供「虚拟定位」会被判这么久?...

上面这个公号「涩郎」&#xff0c;是我的一个备用号&#xff0c;为了防止万一哪天大号失联&#xff0c;平时一周我也会发三篇左右的我的思考&#xff0c;读书笔记&#xff0c;认知感悟等文章&#xff0c;带领大家一起探索精神与财务自由之路。 大家好&#xff0c;我是校长。 最…

文书档案整理过程图文讲解

什么是文书档案&#xff1a; 机关、团体、企业事业单位在党务和行政事务管理活动中直接形成的&#xff0c;由命令、指示、决定、通告、公告、请示、报告、批复、通知、函、会议记录、简报、计划和总结等通用文书转化而来的档案。 文书档案整理有两种方法&#xff1a; 以件为…

工程师和码农

其实这篇是我昨天写好的&#xff0c;和我昨天写的那篇《啥叫工程&#xff1f;啥叫工程师&#xff1f;》是一体的&#xff0c;但是内容又庞杂&#xff0c;所以就分成了两篇文章。 &#xff08;1&#xff09;前导故事1 我曾经开发过一个核心模块&#xff0c;受好多人关联依赖调用…

当我开始用ChatGPT帮我准备面试题…

转眼间&#xff0c;北美的“金三银四”已经快结束了&#xff0c;可是各大厂裁员的消息仍是此起彼伏。即使有HC&#xff0c;也不敢冒然申请&#xff0c;害怕还没准备好&#xff0c;面试搞砸了怎么办…… 那如果借助“外挂”来面试&#xff0c;会怎么样&#xff1f;没错&#xf…

阿里版GPT官宣“阿里全家桶”:所有产品都将接入

“阿里版GPT”——通义千问邀测才几天, 在本周的2023阿里云峰会现场&#xff0c;CEO张勇就宣布&#xff1a; 阿里巴巴所有产品未来都将接入“通义千问”大模型&#xff0c;进行全面改造。 与此同时&#xff0c;通义千问的能力也将通过API对外开放&#xff0c;帮助每家企业打…

从华为云计算岗跳槽到银行科技岗,好难!

点击上方“芋道源码”&#xff0c;选择“设为星标” 管她前浪&#xff0c;还是后浪&#xff1f; 能浪的浪&#xff0c;才是好浪&#xff01; 每天 10:33 更新文章&#xff0c;每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路&#xff0c;很肝~中文详细注释的开源…

AIGC人才趋势洞察: AIGC时代属于跨界复合型人才,⼈才和创新机制是成功的关键

目录 一、行业背景 &#xff08;一&#xff09;从Chat GPT到AIGC&#xff1a;&#xfeff;ChatGPT现象级出圈&#xff0c;AIGC关注度爆发性增⻓ &#xff08;二&#xff09;AIGC定义&#xff1a;广义与狭义 &#xff08;三&#xff09;AIGC应用图谱 二、AIGC招聘需求 &am…

没背景、没学历?专科程序员进入互联网大厂是不是真的没希望?

最近知乎上的一个帖子引起了大众的热议。 疫情结束后&#xff0c;不少大厂又开始了新一轮的招人模式&#xff0c;虽然其中各个方面的要求有所不同&#xff0c;但其中一个招聘要求却出奇的一致——“本科及以上学历。” 互联网用七个字&#xff0c;筑起了一座座学历高墙。 对于…

从华为跳槽到银行科技岗,好难!

今年我们团队在西安的招聘名额比较多&#xff0c;我作为团队的招聘组长&#xff0c;筛选了一波又一波的候选人。 西安是一个有实力的城市&#xff0c;名校云集&#xff0c;985/211 院校很多&#xff0c;包括西安交大、长安大学、西北工业大学、西安电子科技大学、西北大学、西…

学术风波不断,英国24所大学为何改变态度?

近期&#xff0c;一项备受关注的议题引发了英国教育界的热议&#xff1a;是否允许学生在学业中使用生成式人工智能工具ChatGPT&#xff1f;经过一系列的争论和讨论&#xff0c;英国罗素集团的24所顶尖大学最终达成了共识&#xff0c;并发布了关于人工智能使用的原则&#xff0c…

《弥合鸿沟——2023校园招聘调研报告备战攻略》重磅发布!一文速览10大关键发现

校招是企业抢人的主擂台&#xff0c;也是学生上岸的摆渡船。从象牙塔到写字楼&#xff0c;学生们想通过校招完成身份的蜕变&#xff0c;而从写字楼到象牙塔&#xff0c;企业也希冀通过校招引入年轻人才&#xff0c;寻觅那些可助力组织持续发展的新动力。 但在企业和学生之间似乎…

深度学习应用于脑电信号处理

获取了数据还要读懂数据&#xff0c;周期&#xff0c;时间&#xff0c;采样频率&#xff0c;通道等等信息&#xff0c;可以通过说明文档&#xff0c;一般数据都会有。或者用matlab打开数据集来获取。 一、脑电信号数据 开源数据集&#xff0c;注意数据的格式&#xff0c;我用…

脉冲神经网络 神经元模型-HH模型(1)

脉冲神经网络 神经元模型-HH模型 Hodgkin Huxley 神经元模型及实现一 原理1. 电路图2. 常微分方程 二 代码实现-python版本1. 模拟离子通道2. 模拟膜电位 三 代码实现-matlab版本四 参考 Hodgkin Huxley 神经元模型及实现 最近在接触脉冲神经网络相关知识&#xff0c;如有错误…

(DEAP)基于图卷积神经网络的脑电情绪识别(附代码)

1. 数据集介绍以及特征部分见上篇文章&#xff1a; DEAP数据集介绍以及特征提取部分 深度学习基于DEAP的脑电情绪识别情感分类(附代码)_qq_3196288251的博客-CSDN博客 2. 图卷积神经网络哟结合LSTM 本文主要介绍利用图卷积神经网络结合LSTM进行脑电情绪识别。 由于脑电通道…

神经元是多输入单输出吗,单输入单输出神经网络

1、人工神经网络的知识表示形式 人工神经网络的知识表示形式&#xff1a; 1、每个神经元都是一个多输入单输出的信息处理单元 &#xff1b; 2、神经元输入分兴奋性输入和抑制性输入两种类型 &#xff1b; 3、神经元具有空间整合特性和阈值特性 &#xff1b; 4、神经元输入与输…

神经元内信号传递的计算模型-HH模型

神经元内信号传递的计算模型-HH模型 神经元动力学可以被设想为一个总和过程(有时也称为“集成”过程)&#xff0c;并结合一种触发动作电位高于临界电压的机制。 在这里主要介绍Hodgkin Huxley模型模拟离子通道&#xff0c;膜电势的改变。 原理 基础知识 细胞膜两侧离子浓度…

Pytorch+PyG实现GAT(图注意力网络)

文章目录 前言一、导入相关库二、加载Cora数据集三、定义GAT网络四、定义模型五、模型训练六、模型验证七、结果 前言 大家好&#xff0c;我是阿光。 本专栏整理了《图神经网络代码实战》&#xff0c;内包含了不同图神经网络的相关代码实现&#xff08;PyG以及自实现&#xf…

脑电信号特征提取方法与应用

前言 脑电图(EEG)信号在理解与脑功能和脑相关疾病的电活动方面发挥着重要作用。典型的脑电信号分析流程如下&#xff1a;(1)数据采集&#xff1b;(2)数据预处理&#xff1b;(3)特征提取&#xff1b;(4)特征选择&#xff1b;(5)模型训练与分类&#xff1b;(6)性能评估。当信号分…

基础2-用卷积神经网络进行颅内和头皮脑电图数据分析的广义癫痫预测

A Generalised Seizure Prediction with Convolutional Neural Networks for Intracranial and Scalp Electroencephalogram Data Analysis 为了改善耐药癫痫和强直性癫痫患者的生活&#xff0c;癫痫预测作为最具挑战性的预测数据分析工作之一已引起越来越多的关注。许多杰出的…

异质图神经网络(持续更新ing...)

诸神缄默不语-个人CSDN博文目录 本文将对异质图神经网络&#xff08;HGNN, heterogeneous graph neural networks&#xff09;的方法演变进行梳理和介绍。 最近更新时间&#xff1a;2023.5.10 最早更新时间&#xff1a;2022.10.31 文章目录 1. 异质图2. 处理为同质图3. 知识图…