Python爬虫实战技巧:如何在爬取过程中动态切换代理IP

目录

前言

第一步:获取代理IP列表

第二步:测试代理IP的可用性

第三步:动态切换代理IP

总结



前言

在进行爬虫开发的过程中,有时候需要使用代理IP来访问目标网站,以避免被封IP或者降低访问频率的限制。本文将介绍如何在Python爬虫中动态切换代理IP,以提高爬取效率和匿名性。

第一步:获取代理IP列表

在动态切换代理IP的过程中,首先需要获取一些可用的代理IP列表。有很多免费代理IP网站可以提供这样的服务,例如站大爷代理IP(https://www.zdaye.com/)等。这些网站通常提供免费的代理IP列表,并且会标明代理IP的匿名性、类型(HTTP、HTTPS等)、服务器所在地等信息。

以下是一个获取代理IP列表的示例代码:

import requests
from bs4 import BeautifulSoupdef get_proxy_list(url):proxies = []response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')table = soup.find('table', attrs={'class': 'table table-bordered table-striped'})rows = table.find_all('tr')for row in rows[1:]:cells = row.find_all('td')proxy = {'ip': cells[0].text.strip(),'port': cells[1].text.strip(),'type': cells[3].text.strip(),'location': cells[4].text.strip()}proxies.append(proxy)return proxiesproxy_list = get_proxy_list('https://www.kuaidaili.com/free/')
print(proxy_list)

第二步:测试代理IP的可用性

获取到代理IP列表之后,接下来需要测试这些代理IP的可用性。首先,我们需要编写一个函数来检测代理IP是否能够成功连接到目标网站。这个函数可以使用requests库来发送HTTP请求,并设置代理IP。

以下是一个测试代理IP可用性的示例代码:

import requestsdef test_proxy(proxy):try:response = requests.get('https://www.example.com', proxies={'http': proxy['ip'] + ':' + proxy['port']}, timeout=5)if response.status_code == 200:return Trueexcept Exception as e:return Falsereturn Falseproxy = {'ip': '127.0.0.1','port': '8888','type': 'HTTP','location': 'Localhost'
}print(test_proxy(proxy))

第三步:动态切换代理IP

在实际爬取过程中,我们可以通过循环遍历代理IP列表,并在每次请求时切换使用不同的代理IP。当检测到某个代理IP不可用时,可以自动切换到下一个可用的代理IP。

以下是一个动态切换代理IP的示例代码:

import requests
import randomdef get_random_proxy(proxies):return random.choice(proxies)def crawl(url, proxies):while True:proxy = get_random_proxy(proxies)if test_proxy(proxy):response = requests.get(url, proxies={'http': proxy['ip'] + ':' + proxy['port']})# 解析网页内容,并进行后续处理breakurl = 'https://www.example.com'
proxies = [{'ip': '127.0.0.1', 'port': '8888', 'type': 'HTTP', 'location': 'Localhost'},{'ip': '123.45.67.89', 'port': '8080', 'type': 'HTTP', 'location': 'Somewhere'}
]crawl(url, proxies)

以上代码会不断循环遍历代理IP列表,直到找到一个可用的代理IP为止。然后,使用这个代理IP发送HTTP请求,并解析返回的网页内容。

总结

有了动态切换代理IP的技巧,我们可以在进行爬虫开发时更好地应对目标网站的访问限制。通过获取代理IP列表、测试代理IP可用性和动态切换代理IP,我们可以提高爬取效率和匿名性。希望本文对你在Python爬虫开发中实现动态切换代理IP有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/231340.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gem5学习(8):创建一个简单的缓存对象--Creating a simple cache object

目录 一、SimpleCache SimObject 二、Implementing the SimpleCache 1、getSlavePort() 2、handleRequest() 3、AccessEvent() 4、accessTiming() (1)缓存命中:sendResponse() (2)缓存未命中: 三、…

数据分析-25-电商用户行为可视化分析

文章目录 0. 数据代码获取1. 项目介绍1.1 分析背景1.2 分析目的1.3 分析思路 2. 数据清洗2.1 加载必要的库2.2 读取数据2.3 统计缺失值2.4 处理数据a. 删除重复值b. 转换时间格式c. 提取日期和时间d. 转换数据类型 3. 分析内容3.1 用户活跃规律a. 日均pv与uvb. 日新增pv、uv趋势…

Linux 修改主机名称并通过主机名称访问服务器

一、命令提示符简介 当我们打开终端的时候,我们要输入命令的左边就是命令提示符,如下图,接下来介绍下他们分别代表什么含义 1、root 和 xhf 表示的是当前登录的用户名称。 2、node2 表示的当前的主机名称。 3、~ 表示的是当前的目录 4、# 表示…

Plantuml之甘特图语法介绍(二十八)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

柯桥职场英语中千万别把英文邮件中的“OOO”理解成“哦哦哦”!不然可就尴尬了!

有的同学工作中跟老外打交道比较多 尤其是写邮件,除了要把事情交代清楚 还有一些缩写我们也必须掌握 就拿发邮件时老外最爱用到的“OOO”来说 千万不要把“OOO”理解成“噢噢噢” 今天给大家分享几个关于邮件的常用表达 它们真正的意思你都知道吗 01 “OOO”可…

014、枚举与模式匹配

枚举类型,通常也被简称为枚举,它允许我们列举所有可能的值来定义一个类型。在本篇文章中,我们首先会定义并使用一个枚举,以向你展示枚举是如何连同数据来一起编码信息的。 接着,我们会讨论一个特别有用的枚举&#xff…

Minitab 21软件安装包下载及安装教程

Minitab 21下载链接:https://docs.qq.com/doc/DUkNHZVhwTXhtTFla 1.选中下载好的安装包,鼠标右键解压到”Minitab 21“文件夹 2.选中”Setup.exe“,鼠标右击选择“以管理员身份运行” 3.点击“下一步” 4.点击“是” 5.点击“下一步” 6.勾选…

ChatGPT绘制全球植被类型分布图、生物量图、土壤概念图、处理遥感数据并绘图、病毒、植物、动物细胞结构图

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

信息系统安全——缓冲区溢出和恶意代码分析

实验 1 缓冲区溢出和恶意代码分析 1.1 实验名称 《缓冲区溢出和恶意代码分析》 1.2 实验目的 1 、熟练使用恶意代码分析工具 OD 和 IDA 2 、通过实例分析,掌握缓冲区溢出的详细机理 3 、通过实例,熟悉恶意样本分析过程 1.3 实验步骤及内容 第一阶段&…

ClickHouse基础知识(五):ClickHouse的SQL 操作

基本上来说传统关系型数据库(以 MySQL 为例)的 SQL 语句,ClickHouse 基本都支持, 这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL(MySQL)不一致的地方。 1. Insert 基本与标准 SQL(My…

71内网安全-域横向网络传输应用层隧道技术

必备知识点; 代理和隧道技术的区别? 代理主要解决的是网络访问问题,隧道是对过滤的绕过, 隧道技术是为了解决什么 解决被防火墙一些设备,ids(入侵检测系统)进行拦截的东西进行突破&#xff0…

迪杰斯特拉(Dijkstra)算法详解

【专栏】数据结构复习之路 这篇文章来自上述专栏中的一篇文章的节选: 【数据结构复习之路】图(严蔚敏版)两万余字&超详细讲解 想了解更多图论的知识,可以去看看本专栏 Dijkstra 算法讲解: 迪杰斯特拉算法(Di…

pip install skopt安装显示没有对应版本问题及解决

一、问题描述以及分析 (一)问题描述 ModuleNotFoundError: No module named skopt pip install skopt Note: you may need to restart the kernel to use updated packages.ERROR: Could not find a version that satisfies the requirement skopt (fro…

C语言编译器(C语言编程软件)完全攻略(第十三部分:VS2010使用教程(使用VS2010编写C语言程序))

介绍常用C语言编译器的安装、配置和使用。 十三、VS2010使用教程(使用VS2010编写C语言程序) 提示:VS2010 可以在 XP、Win7 和 Win8 下完美运行,但在 Win10 下可能会有兼容性问题,使用 Win10 的读者建议安装 VS2015 或…

JDBC练习查询所有内容

MySql表代码 -- 删除tb_brand表 drop table if exists tb_brand; -- 创建tb_brand表 create table tb_brand (-- id 主键id int primary key auto_increment,-- 品牌名称brand_name varchar(20),-- 企业名称company_name varchar(20),-- 排序字段ordered int…

解决VNC连接Ubuntu服务器打开终端出现闪退情况

服务器环境 阿里云ECS服务器 操作系统:Ubuntu 20.0.4 如何使用VNC连接阿里云ECS服务器 1.阿里云官方指导:通过VNC搭建Ubuntu 18.04和20.04图形界面 2.新手入门ECS——ubuntu 20.04安装图形化界面和本地VNC连接 问题描述 使用VNC连接上新申请阿里云服…

C# 如何读取Excel文件

当处理Excel文件时,从中读取数据是一个常见的需求。通过读取Excel数据,可以获取电子表格中包含的信息,并在其他应用程序或编程环境中使用这些数据进行进一步的处理和分析。本文将分享一个使用免费库来实现C#中读取Excel数据的方法。具体如下&…

LLM之RAG实战(九)| 高级RAG 03:多文档RAG体系结构

在RAG(检索和生成)这样的框架内管理和处理多个文档有很大的挑战。关键不仅在于提取相关内容,还在于选择包含用户查询所寻求的信息的适当文档。基于用户查询对齐的多粒度特性,需要动态选择文档,本文将介绍结构化层次检索…

实现文件拖拽上传的功能

1 先来看一下效果 2 我们来看一下代码执行的结果: 我们创建目标的容器盒子 和可以展示数据的ul 监听进入目前盒子的事件 3 文件进入目标容器中解析文件

使用echarts制作柱状图并且下方带表格

实现效果: 调试地址: Examples - Apache ECharts 源码: option { title: { left: center, top: 0, text: 2022-05月 制造产量 达成情况(单位: 吨) (图1)\n\n集团目标产量: 106,675吨 集团实际产量: 2,636吨, textStyle:{ fontSize:20, colo…