python爬虫实战(3)--爬取某乎热搜

1. 分析爬取地址

打开某乎首页，点击热榜
在这里插入图片描述
这个就是我们需要爬取的地址，取到地址某乎/api/v3/feed/topstory/hot-lists/total?limit=50&desktop=true
定义好请求头，从Accept往下的请求头全部复制，转换成json

headers = {'Accept': '*/*','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cookie': '你的请求头中的cookie','Sec-Ch-Ua': 'Not/A)Brand\';v=\'99\', \'Google Chrome\';v=\'115\', \'Chromium\';v=\'115','Sec-Ch-Ua-Mobile': '?0','Sec-Ch-Ua-Platform': 'Windows','Sec-Fetch-Dest': 'empty','Sec-Fetch-Mode': 'cors','Sec-Fetch-Site': 'same-origin','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36','X-Ab-Param': '','X-Ab-Pb': 'CgInBxIBAA==','X-Api-Version': '3.0.76','X-Requested-With': 'fetch','X-Zse-93': '101_3_3.0','X-Zse-96': '2.0_6hUp=vt8=9zOcwtPHcLjutT0sL2PhwOPys0v=fvQr7yneBCmMO2zkvXcYfoc5esu'
}

2. 分析请求结果

通过请求可以看出，hot-lists/total?limit=50&desktop=true请求后的返回参数直接是json格式，则不需要单独处理在这里插入图片描述
定义好需要抓取的参数按元素获取即可

    order_list = []  # 热榜排名title_list = []  # 热榜标题desc_list = []  # 热榜描述url_list = []  # 热榜链接hot_value_list = []  # 热度值answer_count_list = []  # 回答数data_list = json_data['data']order = 1  # 热榜排名初始值

GET请求接口

    response = requests.get(url=url, headers=headers)json_data = response.json()

循环数组json并赋值

        order_list.append(order)# 热榜标题title = data['target']['title_area']['text']print(order, '热榜标题：', title)title_list.append(title)desc_list.append(data['target']['excerpt_area']['text'])url_list.append(data['target']['link']['url'])hot_value_list.append(data['target']['metrics_area']['text'])answer_count_list.append(data['feed_specific']['answer_count'])order += 1```
将结果导出到csv,注意定义一下编码集为utf_8_sig

df = pd.DataFrame({'热榜排名': order_list,'热榜标题': title_list,'热榜链接': url_list,'热度值': hot_value_list,'回答数': answer_count_list,'热榜描述': desc_list,}
)
# 保存结果到csv文件
df.to_csv('知乎热榜.csv', index=False, encoding='utf_8_sig')

### 3. 结果验证
![在这里插入图片描述](https://img-blog.csdnimg.cn/eb0b9fdced6241e9bd7d6e941826b389.png)
###  注意：如果请求返回的json格式乱码，调整请求头Accept-Encoding，去掉br后即可

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/102023.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python爬虫实战(3)--爬取某乎热搜

1. 分析爬取地址

2. 分析请求结果

相关文章

基于Python科研论文绘制学习 - task2

【工程优化问题】基于鲸鱼、萤火虫、灰狼优化算法的张力、压缩弹簧设计问题研究（Matlab代码实现）

问道管理：数字经济概念走势强劲，竞业达、久其软件等涨停，观想科技等大涨

MyBatis的核心技术掌握，简单易懂

PHP求职招聘系统Dreamweaver开发mysql数据库web结构php编程计算机网页

ORB-SLAM系列算法演进

裂缝检测，只依赖OPENCV，基于YOLO8S

Java学习笔记37

基于swing的教务管理系统java jsp学生教师信息mysql源代码

伦敦金短线好还是长线好

谁偷走了我的存储容量？预留空间OP参上！

【Go语言】基于Socket编程的P2P通信程序示例

【硕士论文完美复现】【价格型需求响应】基于需求侧响应的配电网供电能力综合评估（Matlab代码实现）

用Cmake build OpenCV后，在VS中查看OpenCV源码的方法（环境VS2022+openCV4.8.0） Part II

Seaborn数据可视化（三）

国内ChatGPT对比与最佳方案

关于打包多模块SpringBoot项目并通过宝塔上传服务器

Git拉取分支、基于主分支创建新的开发分支、合并开发分支到主分支、回退上一次的merge操作

Newsprk Newspaper新闻报纸WordPress主题

数据结构——队列（C语言）