【pyspider】爬取ajax请求数据（post），如何处理python2字典的unicode编码字段？

情景：传统的爬虫只需要设置fetch_type=js即可，因为可以获取到整个页面。但是现在ajax应用越来越广泛，所以有的网页不能用此种爬虫类型来获取页面的数据，只能用slef.crawl()来发起http请求来抓取数据。

直接上例子：
可以看到，该网页的每一页的数据是通过ajax请求获取到的，方式为POST，所以不能用传统方法。
在这里插入图片描述

可以看到该请求的请求体，我们需要把请求体和请求方法写到crawl函数的参数里。
在这里插入图片描述

直接上代码：

# coding: utf-8
from pyspider.libs.base_handler import *class Handler(BaseHandler):@every(minutes=10)def on_start(self):data = {'channelid': 229105,'sortfield': '-docorderpri,-docreltime','classsql': 'chnlid=40078','classcol': 'publishyear','classnum': 100,'classsort': 0,'cache': 'true','page': 1,'prepage': 75,}save = {'req_body':data}# method指定POST，data指定请求体，save保存一些自定义字段。self.crawl('http://yjt.fujian.gov.cn/fjdzapp/search', callback=self.index_page, method="POST", data=data, save=save)# 抓取请求的响应数据后会调用此接口@config(age=10*60)def index_page(self, response):print(response.save['req_body']) # 查看请求体print(response.json) # 获取所抓到的数据return response.jsondef on_result(self, result):# 处理结果 ...

请求体和响应如下：
在这里插入图片描述

需要注意的地方

可以看到，字典的字段都是u'...'，这表明是Unicode编码，所以想要获取字典中的字段，需要做下面的处理：

response字典中有个recordCount的key，我想获取他的值，需要将其先按照utf-8的编码方式解码为Unicode（python2默认Unicode编码，但是我们的脚本是utf-8的编码方式），这样就可以获取到字典的值啦

	recordCount = response.json.get('recordCount'.decode('utf-8'))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/184264.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【pyspider】爬取ajax请求数据（post），如何处理python2字典的unicode编码字段？

需要注意的地方

相关文章

大数据学习之Spark性能优化

SSM之spring注解式缓存redis

【Sql】sql server数据库提示：执行Transact-SQL语句或批处理时发生了异常。无法打开数据库msdb，错误：926。

项目实战：组件扫描(4)-筛选带有RequestMapping注解的bean实例

PTA_乙级_1001_C++

技术分享 | web自动化测试-PageObject 设计模式

【python基础】时间模块的time的下面的方法使用解析

『MySQL快速上手』-③-库的操作

Jmeter_逻辑控制器

前端项目导入vue和element

聊一聊 tcp/ip 在.NET故障分析的重要性

【微服务】mysql + elasticsearch数据双写设计与实现

《强化学习与机器人控制》：探索深度学习的应用宝典

Markov Chain Fingerprinting to Classify Encrypted Traffic 论文笔记

【Linux】：初识git || centos下安装git || 创建本地仓库 || 配置本地仓库 || 认识工作区/暂存区（索引）以及版本库

Python和BeautifulSoup库的魔力：解析TikTok视频页面

YOLOv8-seg 分割代码详解（一）Predict

B站双11，联手天猫暴涨2亿消费新势力

大数据疫情分析及可视化系统计算机竞赛

Web Worker：JS多线程的伪解药?