python网页爬虫接口和常见反扒

一、手动获取cookie并自动登录

一.找json地址

1.进入谷歌浏览器点击检查,Network,Fetch/XHR,然后刷新,重新获取数据

在这里插入图片描述

2.在name里面查找需要的数据

3.选择数据:

1)可以通过name判断
2)可以通过size文件大小判断
3)最后点击数据的preview看看是不是自己想要的数据

4.选择成功后,去到他的Headers获取Request URL

二、进入pycharm解析数据

import requests
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
print(response.json())

如果结果显示是你需要的数据,那么选择成功
在这里插入图片描述

cookie获取
检查-network-all-name处网页-headers-cookie
在这里插入图片描述

二、自动登录

这里用知乎做介绍,即自动登录知乎
因为我们知乎的内容需要登录,账户,而这里的代码可以实现自动登录

import requestsheaders = {'cookie': '_zap=b1124762-828e-435d-b04c-7c59a1786742; _xsrf=774cb199-0e1c-4b28-bb60-8c62b565c8bc; d_c0=AUCYBu3vvBWPTm-arz42Iw6N9McyUzXcK4c=|1666236614; __snaker__id=h9XPzR2HWZU7g32U; gdxidpyhxdE=0E5%2Fpw5xVQk4I8AjL4%5Czi82PtOTmygoSeGwhICxLLVZ7rKD0sGAX%2Fl7ag0qgWvwWbBzp%2Bxs12%2BMMs2IKlxRPe8L8sCamvqfgU1%2B%5CTCuuj%2Fq%2F%2F%2BHyiITWG0KpRs%5Ck6WWJmfc0GBXBxMInMsQ0ccwDz8m4fd%5Ct91fnkea26sfCjcpMjU1K%3A1666237515104; YD00517437729195%3AWM_NI=6f%2BZdRG4pSroFkLgghutDCxnyNtfeQ99uG2rLkD8zzsTok7nLjMSRCCUCwF9R4Fv9q8pTvFCpGD2fshT%2BjV6hSJ70OKqsxHrJR1HLJb6bcxJbjanWbk3byL2QpG%2BcPdNajk%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6eea6d3439b8fbab8d247b0eb8bb3c85f869b9facc84db2eba0adfb5282a7a282e42af0fea7c3b92af6bae5bbe75a85ecc0b4f16586b58488e664b7ac8ca4fb66bb92bc87e85bfbe7bba8b17a90b58cd9f972b18ca18cb66690b683b4d149818b8d98c53392ec8a97bc7bfcb09c97c549b4998cd3e579ac8ce58bd53eac8d86d8b34589afbd99cb7a8a8effa9cf42a2eaae84fb42a2b6af8fd66aa9edae9acf3a93b089cce25ca892af8bea37e2a3; YD00517437729195%3AWM_TID=NdK2P0cmZUdBQUEFUULUXq9fP1YFijKK; captcha_session_v2=2|1:0|10:1666236622|18:captcha_session_v2|88:Y1VMdHV1MFJCTjMzQzFVYVExUEhLVW8ra1lqbDFVbzhpY1FtT1BJMGErUis0VE5GZmlPTnBHQ2FKVUx1Q09jLw==|e2e3d50d5966c7f04f11bbc9430caefa856fedbe0b81fb941a5601435ce1670c; captcha_ticket_v2=2|1:0|10:1666236651|17:captcha_ticket_v2|704:eyJ2YWxpZGF0ZSI6IkNOMzFfSy1WVy5MS3N0NmZsVzk1T0VLMTdOWU05bTI5anJOZTBFUHJlcG8wWG9ZNEppak5jc2REMFpOTzVsWThSSnFlUTRhZDQ5ZEwxdkJ3Um1XaERlR01PckUtWURkLmlhd3BjVUgwdk5GNld1NzlqY0FSWDUyTldVOEhueW9yTlpHSC5ZOVBfZWxnMDVpMndHaXZrakJWZVQ4ZEU3a1BmVUdHOFM1aHZTQ1hMZWpzQXhLWlYyQm1hUnlGVl93dGd1Li1YOWdmR1c0eXMyTHhvaGJGbjRWNnVGaHlPRy15X3EwcDdTa2YwS3dxZ3lRVENzcjVNSEtDRXgwTEc1RzE1ZWU1TEFkN1lVLXI4WUduRTdNVWhEZFZfQmRfNUJ0b0JoQ2h0Ql8tbDY1Nk9QNlI5VUF2YnVnd0haNHI2UUktR3NsSUdYQ2dJVl9MV1JBZEdCZTY0LktpZ0x3emd2STZQT2RTc2ppc1JEd0hzWXpmRXdzVUhTRlZzb0ZvTEttVHVtTHM0b0IyR2RqUkc3TnBLQ09wd19fajg5aFNUaUR2RFc4Rk96Wi1Md2U3c2QxbGlGV003QmNIbDA0bDlMQ3N0VjR1UHZnNE9QY3JZOG5YQmZ3aDh2SXplczVWVEl2LmpqVEVnSmYwLmZmc1d2NzFVd0ouMDZGaFJWTDJJQlZYMyJ9|8b8701de0198ab00e821f6deeb6ea8598ca444615c1166543fff1ce899f45d76; z_c0=2|1:0|10:1666236667|4:z_c0|92:Mi4xaW5CWUdRQUFBQUFCUUpnRzdlLThGU1lBQUFCZ0FsVk4tdzQtWkFDMUdXVVRpM2xMQkNpT2x6WGwyWWJHbkh5Uk53|2f44557aacbe41f585dcf8586df529133b0eabd958de5974908ca4b500840f96; q_c1=b4bc9487357a4804b8bf100ad46fb07e|1666236667000|1666236667000; NOT_UNREGISTER_WAITING=1; tst=r; SESSIONID=NMIvpzh1H0KgDQHvcVlyotltvV0Py4d5qCNQ3PXRe4T; KLBRSID=53650870f91603bc3193342a80cf198c|1666236826|1666236613','user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
response = requests.get('https://www.zhihu.com/', headers=headers)
print(response.text)

三、selenium获取cookie

from selenium.webdriver import Chrome# 1.用selenium打开需要获取cookie的网站
b = Chrome()
b.get('https://www.taobao.com')# 2. 留足够多的时间来人工完成登录
input('完成登录:')# 3.让浏览器对应的网页中出现登录成功信息,再获取cookie(获取整个网站所有的cookie)
cookies = b.get_cookies()
# print(cookies, type(cookies))# 4. 将获取到的cookies写入文件
with open('files/taobao.txt', 'w', encoding='utf-8') as f:f.write(str(cookies))

四、selenium使用cookie

from selenium.webdriver import Chrome# 1.打开需要自动登录的网页
b = Chrome()
b.get('https://www.taobao.com')# 2.添加cookie值
with open('files/taobao.txt', encoding='utf-8') as f:cookies = eval(f.read())for x in cookies:b.add_cookie(x)# 3. 重新打开网页
b.get('https://www.taobao.com')

五、requests使用代理ip

有时候,我们多次访问网址,会被网址ban ip,让我们无法进入探索,那么我们只要使用代理ip就行啦
我现在推荐的是极光ip

import requestsheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}# 设置代理IP
proxies = {'https': '175.22.188.25:4524',
}response = requests.get('https://movie.douban.com/top250', headers=headers, proxies=proxies)if response.status_code == 200:print(response.text)
else:print('请求失败')

六、selenium使用代理ip

from selenium.webdriver import Chrome, ChromeOptions# 1. 给浏览器添加配置
options = ChromeOptions()# 1)设置代理
options.add_argument('--proxy-server=http://171.83.191.223:4526')b = Chrome(options=options)
b.get('https://movie.douban.com/top250')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35619.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Django | 爬虫 】收集某吧评论集成舆情监控(附源码)

🤵‍♂️ 个人主页: 计算机魔术师 👨‍💻 作者简介:CSDN内容合伙人,全栈领域优质创作者。 文章目录 一、爬取帖子、二级评论二、构建数据表三、并入项目1. spider代码2. view视图代码3. 优化后台界面3. urls路由 四、定…

python 闲鱼消息_GitHub - Hatcat123/XianyuSdd: 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊。更多我们共同开发的项目(咸鱼反爬更新,只能作为学习使用)...

XianyuSdd 爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊 写了一个异步爬取闲鱼商品最新信息推送到钉钉 图中的需求有两个部分值得学习。 多线程爬取最新关键字的商品信息 python对钉钉的操作 多线程爬取最新关键字的商品信息 这个多线程是依靠关键字的数量&…

抓取某鱼数据,看看小姐姐们都在卖什么

因为一直在研究app,所以闲着的时候写了这款软件,晚上不想写代码了,就用程序来看看闲鱼的小姐姐们都在卖什么吧。 关键词: “本人实拍 女” 主要出售物品:电子产品, 衣物, 饰品, 化…

闲鱼app关键词抓包案例,配合frida成功抓包

原文链接:https://blog.csdn.net/weixin_44223957/article/details/128608540 准备工具: 安卓模拟器(任意,需要root)下载教程闲鱼apk(推荐使用7.0以上)下载地址fiddler(抓包工具&a…

获取闲鱼已售商品的价格等信息

很多商家或者卖家,抑或是市场调研人员,对于商品定价问题一直比较纠结。 有朋友也从我这里定制过闲鱼商品在售价格调查系统,但在售商品并不能完整或者直观的反映出市场成交的价格,可以说非常地不客观。 所以,闲下来的时…

品牌策划流程揭秘,如何让你的品牌脱颖而出

品牌策划案是企业塑造品牌形象的依据,一个有依据的品牌策划案给消费者的信息是安全、放心的。一个完整的品牌策划案基本要包括以下几个方面: 1、基础调研与梳理说明 产品:企业产品目录 、产品销售状况、产品研发状况、产品生产状况、产品价…

产品市场营销策划方案与案例PPT模板

一份优秀的市场营销策划PPT对于一个营销人、广告人来说至关重要,自从开始接触营销这一领域,不管是学校的老师还是职场的老板总是在提及一个名词—营销策划,那么一份优秀的营销策划PPT到底应该怎么做呢,可以参考下面的模板 用途&a…

【记录】IOS手机如何配置whistle代理进行抓包?(苹果系列)(安卓应该也是类似处理)

前提:电脑先配置好 whistle。 进行抓包的前提是必须手机电脑在同一局域网啊!!! 第一步: 打开Mac 电脑网络偏好设置,查看当前的 ip 地址。 第二步: 手机设置WiFi 的代理为:192.1…

Java实现双色球玩法

Java实现双色球玩法 玩法说明: 双色球投注区分为红球号码区和蓝球号码区,红球号码范围为01~33,蓝球号码范围为01~16。双色球每期从33个红球中开出6个号码,从16个蓝球中开出1个号码作为中奖号码&#xff0c…

随机生成一注双色球号码 - - (要求同色号码不重复 )

知识点: new Random() . next( 33): 产生一个 0-33 (含0不含33) 的随机数 所以1之后 , 就变成了 1-34( 1 - 33); HashSet集合:存储不重复的元素. add( E element) 往集合中添加指定元素. 增强for循环:因为不能使用索引,所以用增强for循环. /*双色球规则:双色球每…

Java基础~双色球游戏(规则:红色球号码从1--33中选择;蓝色球号码从1--16中选择,每次注投注号码由6个红色球号码和1个蓝色球号码组成)附:运行结果截图

目录 ArrayList.java Ball.java BallColor.java 这是枚举类型 Test1.java 我的主方法文件 运行截图:​编辑 双色球游戏:游戏规则红色球号码从1--33中选择;蓝色球号码从1--16中选择,每注投注号码由6个红色球号码和1个蓝色球号…

C#实现双色球选号

点击查看:C#实现双色球选号 文件大小:1M 操作系统:Windows10旗舰版 开发工具:VS2019 开发语言:.cs

chatgpt赋能python:Python一行滚动显示文字,达到显示效果更佳的方法

Python一行滚动显示文字,达到显示效果更佳的方法 如果你正在寻找一种使你的文字在屏幕上无缝滚动的方法, Python提供了一种简单而有效的解决方案。 本文将介绍如何在Python中一行代码中实现滚动显示文字的功能,以及如何优化滚动效果以获得最…

PCIE扫盲转发-理解

PCIe扫盲系列博文连载目录篇 通过学习PCIE扫描系列文章,结合PCIE3规范深入理解PCIE 硬件时序​​时序解读 PCIE 错误检测重要概念:错误等级检测机制错误优先级 错误源ECRC错误事务错误链路流量控制错误(Link Flow Control Errors&#xff09…

Yolov5部署训练及代码解读

5.Yolov5实操训练(重点) 一、前言 1.集成的资源,包括我自己做成的成品,可以直接train与detect。需要加qq群:938162384 2.本文目的主要是能够让读者复现,直接使用,而且少讲原理。如果想深入了…

深入解读命令执行:基本概念、攻击技术和防范应对

数据来源 部分数据来源:ChatGPT 命令执行简介 01 命令执行漏洞产生原因 命令执行漏洞的产生原因主要是输入验证不严格、代码逻辑错误、应用程序或系统中缺少安全机制等。攻击者可以通过构造特定的输入向应用程序或系统注入恶意代码,从而在受攻击的主…

技术,并不值钱——阿里员工失业记

上一篇:Java危矣! 看到网友分享自己被阿里裁员的经历,挺有感触的,转发给大家—— 01谈话 我的顶头上司已经走了,我坐着,看着对面空空的椅子,有点没缓过神来 离职 只剩下这两个字在我脑袋里不断徘…

20230411笔记-MTK天玑开发者日(北京站)

1. 天玑开发者日“追光 行动”主题 来源:近期搜索Unity比较多,csdn给我发了短信邀请,参加 天玑开发者日-北京站 活动。 消息:百家号 MediaTeK 联发科官宣天玑开发者日,4 月 11 日起召开 2.活动议程 天玑开发者日-追光…

“智能”创造未来:PDU智能化全面提升IDC数据中心用电能效!

一个月前,万众期盼的《流浪地球2》如期上映,无论是剧情还是特效,让广大观众享受到一次久违的来自中国科幻的震撼,时至今日仍是大家茶余饭后津津乐道的热点谈资。说起这部片子里,最让人紧张的部分,还得数为了…

【Zigbee】解密Zigbee地址分配——你需要知道的一切

💖 作者简介:大家好,我是Zeeland,全栈领域优质创作者。📝 CSDN主页:Zeeland🔥📣 我的博客:Zeeland📚 Github主页: Undertone0809 (Zeeland) (github.com)&…