Python搭建代理IP池实现存储IP的方法

目录

前言

1. 介绍

2. IP存储方法

2.1 存储到数据库

2.2 存储到文件

2.3 存储到内存

3. 完整代码示例

总结



前言

代理IP池是一种常用的网络爬虫技术,可以用于反爬虫、批量访问目标网站等场景。本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。首先,介绍了代理IP的概念和使用场景。然后,详细介绍了IP存储的几种方法,包括存储到数据库、存储到文件和存储到内存中。最后,给出了完整的代码示例。

1. 介绍

代理IP池是一种常用的网络爬虫技术,它通过维护一组可用的代理IP地址,用于隐藏用户真实IP地址,以实现反爬虫、批量访问目标网站等目的。代理IP可以分为公开代理和私密代理两种类型。公开代理是免费提供给大众使用的代理IP,它的可用性较低,适合于一些对速度和稳定性要求不高的场景。私密代理是需付费使用的代理IP,由于可用性较高,适合于对速度和稳定性要求较高的场景。

2. IP存储方法

代理IP池需要维护一组可用的代理IP地址,因此需要一种方法来存储这些IP地址。下面介绍几种常用的IP存储方法。

2.1 存储到数据库

将代理IP存储到数据库中是一种常用的方法。使用数据库可以方便地进行IP的增删改查操作,并且可以与其他数据进行关联。常用的数据库包括MySQL、MongoDB等。以下是一个使用MySQL存储代理IP的示例代码:

import pymysql# 连接数据库
conn = pymysql.connect(host='localhost',port=3306,user='root',password='password',db='proxy_ip',charset='utf8'
)# 创建游标对象
cursor = conn.cursor()# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (id INT AUTO_INCREMENT PRIMARY KEY,ip VARCHAR(50) NOT NULL,port INT NOT NULL,type VARCHAR(10) NOT NULL,speed FLOAT NOT NULL
)
'''
cursor.execute(sql)# 插入代理IP
def insert_proxy(ip, port, type, speed):sql = '''INSERT INTO proxy_ip (ip, port, type, speed)VALUES ('{}', {}, '{}', {});'''.format(ip, port, type, speed)cursor.execute(sql)conn.commit()# 查询代理IP
def select_proxy():sql = '''SELECT * FROM proxy_ip;'''cursor.execute(sql)results = cursor.fetchall()for row in results:print(row)# 关闭数据库连接
cursor.close()
conn.close()

2.2 存储到文件

将代理IP存储到文件中是另一种常用的方法。使用文件可以方便地进行IP的读写操作,但是不方便进行增删改查操作。以下是一个使用文本文件存储代理IP的示例代码:

# 写入代理IP到文件
def write_proxy(ip, port, type, speed):with open('proxy_ip.txt', 'a') as f:f.write('{},{}:{},{}\n'.format(type, ip, port, speed))# 读取代理IP文件
def read_proxy():with open('proxy_ip.txt', 'r') as f:lines = f.readlines()for line in lines:type, ip_port, speed = line.strip().split(',')ip, port = ip_port.split(':')print(ip, port, type, speed)

2.3 存储到内存

将代理IP存储到内存中是一种简单高效的方法,适用于数据量较小的场景。以下是一个使用列表存储代理IP的示例代码:

# 定义全局变量
proxy_ips = []# 添加代理IP到列表
def add_proxy(ip, port, type, speed):proxy_ips.append((ip, port, type, speed))# 输出代理IP列表
def print_proxy():for ip, port, type, speed in proxy_ips:print(ip, port, type, speed)

3. 完整代码示例

下面是一个完整的使用Python搭建代理IP池,并实现IP存储的示例代码:

import pymysql# 连接数据库
conn = pymysql.connect(host='localhost',port=3306,user='root',password='password',db='proxy_ip',charset='utf8'
)# 创建游标对象
cursor = conn.cursor()# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (id INT AUTO_INCREMENT PRIMARY KEY,ip VARCHAR(50) NOT NULL,port INT NOT NULL,type VARCHAR(10) NOT NULL,speed FLOAT NOT NULL
)
'''
cursor.execute(sql)# 插入代理IP
def insert_proxy(ip, port, type, speed):sql = '''INSERT INTO proxy_ip (ip, port, type, speed)VALUES ('{}', {}, '{}', {});'''.format(ip, port, type, speed)cursor.execute(sql)conn.commit()# 查询代理IP
def select_proxy():sql = '''SELECT * FROM proxy_ip;'''cursor.execute(sql)results = cursor.fetchall()for row in results:print(row)# 添加代理IP到列表
def add_proxy(ip, port, type, speed):proxy_ips.append((ip, port, type, speed))# 输出代理IP列表
def print_proxy():for ip, port, type, speed in proxy_ips:print(ip, port, type, speed)# 关闭数据库连接
cursor.close()
conn.close()

总结

本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。存储IP的方法包括存储到数据库、存储到文件和存储到内存中。不同的存储方法适用于不同场景,开发者可以根据实际需求选择合适的方法。使用代理IP池可以提高网站爬取效率,防止被目标网站反爬虫。希望本文对大家了解Python搭建代理IP池有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/230170.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人机交互不是人机融合智能

一、人机交互和人机融合智能是两个不同的概念 人机交互是指人类与计算机之间的信息交流和操作方式,包括输入和输出界面、交互技术、用户体验等方面。人机交互的目标是提供用户友好的界面和自然的交互方式,使人类能够与计算机更加高效地进行沟通和协作。 …

pytest conftest通过fixture实现变量共享

conftest.py scope"module" 只对当前执行的python文件 作用 pytest.fixture(scope"module") def global_variable():my_dict {}yield my_dict test_case7.py import pytestlist1 []def test_case001(global_variable):data1 123global_variable.u…

Flink版本更新汇总(1.14-1.18)

0、汇总 1.14.0 1.有界流支持 Checkpoint; 2.批执行模式支持 DataStream 和 Table/SQL 混合应用; 3.新增 Hybrid Source 功能; 4.新增 缓冲区去膨胀 功能; 5.新增 细粒度资源管理 功能; 6.新增 DataStream 的 Pulsar …

[DevOps-02] Code编码阶段工具

一、简要说明 在code阶段,我们需要将不同版本的代码存储到一个仓库中,常见的版本控制工具就是SVN或者Git,这里我们采用Git作为版本控制工具,GitLab作为远程仓库。 Git安装安装GitLab配置GitLab登录账户二、Git安装 Git官网 Githttps://git-scm.com/

VScode——下载、安装、配置C/C++环境(windows)

一.快速下载 还在因为vscode官方下载慢而头疼嘛,按这个步骤来直接起飞兄弟萌 首先进入vscode官方网站然后选择对应版本下载然后进入浏览器下载页面复制下载链接粘贴到地址栏 将地址中的/stable前换成vscode.cdn.azure.cn 即可实现超速下载 下面是一个国内镜像的下…

RocketMQ单机部署完整学习笔记

文章目录 前言一、RocketMQ是什么?二、使用步骤1.安装MQ1.安装JDK2.安装mq3.MQ配置(核心) 2.搭建可视化dashboard1.下载源码2.修改配置3.启动 3.整合java1.生产者2.消费者3.启动生产者4.启动消费者5.dashboard添加消费组 三、总结全部的配置 前言 本文是基于4.X版本…

论文阅读——Slide-Transformer(cvpr2023)

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention 一、分析 1、改进transformer的几个思路: (1)将全局感受野控制在较小区域,如:PVT,DAT,使用稀疏全局注意力来…

机器学习笔记 - 从2D数据合成3D数据

一、3D 数据简介 人们一致认为,从单一角度合成 3D 数据是人类视觉的一项基本功能,这对计算机视觉算法来说极具挑战性。但随着 LiDAR、RGB-D 相机(RealSense、Kinect)和 3D 扫描仪等 3D 传感器的可用性和价格的提高,3D 采集技术的最新进展取得了巨大飞跃。 与广泛使用的 2D…

【REST2SQL】03 GO读取JSON文件

REST2SQL需要一些配置信息,用JSON文件保存,比如config.json 1 创建config.json配置文件 {"hostPort":"localhost:5217","connString":"oracle://blma:5217127.0.0.1:1521/CQYH","_oracle":"ora…

微信防红链接遮罩,QQ防红遮罩,附带安装教程

源码介绍 主要用于防止网址被微信和QQ拦截&#xff0c;以避免用户在其内置浏览器中直接打开。会提供一个引导用户跳转到浏览器进行浏览的页面。 使用教程 1.上传插件整个文件夹到网站根目录。得到&#xff1a; /WxqqJump 2.修改 /index.php 文件。在第一行 <?php 下新增…

力扣hot100 翻转二叉树 递归

&#x1f468;‍&#x1f3eb; 题目地址 &#x1f60b; AC code /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNod…

jdk和IDEA教育版下载和安装详解

前言 研究生专业是通信系统,为了寻找实习于是在研二时期学习java。但是在学习java的过程中没有进行系统总结,很多知识点或者一些细节已经忘记。由于工作找的是某行软件中心的软件开发。准备在毕业前对java知识进行系统性学习。本专栏将从零基础开始,从最简单的jdk和IDEA下载…

为什么避免在生命周期钩子中使用箭头函数

在Vue.js中&#xff0c;生命周期钩子是特殊的函数&#xff0c;它们在组件的不同阶段自动被调用。当这些钩子被调用时&#xff0c;Vue确保它们的this上下文指向当前组件的实例。这意味着在生命周期钩子内部&#xff0c;你可以通过this访问组件的数据、计算属性、方法等。这是Vue…

计算机网络(9):无线网络

无线局域网 WLAN 无线局域网常简写为 WLAN (Wireless Local Area Network)。 无线局域网的组成 无线局域网可分为两大类。第一类是有固定基础设施的&#xff0c;第二类是无固定基础设施的。所谓“固定基础设施”是指预先建立起来的、能够覆盖一定地理范围的一批固定基站。 …

qt 异常汇总

1. C2338 No Q_OBJECT in the class with the signal (编译源文件 ..\..\qt\labelme-master\src\mainwindow.cpp mainwindow头文件中的类没有Q_OBJECT宏定义&#xff0c;或者其子类或者其他依赖没有Q_OBJECT宏定义。 全部qt类都要写上Q_OBJECT. 2. C2385 对connect的访…

2 Windows网络编程

1 基础概念 1.1 socket概念 Socket 的原意是“插座”&#xff0c;在计算机通信领域&#xff0c;socket 被翻译为“套接字”&#xff0c;它是计算机之间进行通信的一种约定或一种方式。Socket本质上是一个抽象层&#xff0c;它是一组用于网络通信的API&#xff0c;包括了一系列…

Springboot通过profiles切换不同环境使用的配置

文章目录 简介1.通过分隔符隔离2.通过使用不同的配置文件区分3.测试 简介 一个项目从开发到上线一般要经过几个环境, dev测试环境-uat预生产环境-prod生产环境&#xff0c;每个环境的使用的数据库或者配置不同&#xff0c;这时候可以通过下面两种方式区分配置,达到快速切换的效…

用PHP搭建一个绘画API

【腾讯云AI绘画】用PHP搭建一个绘画API 大家好&#xff01;今天我要给大家推荐的是如何用PHP搭建一个绘画API&#xff0c;让你的网站或应用瞬间拥有强大的绘画能力&#xff01;无论你是想要让用户在网页上绘制自己的创意&#xff0c;还是想要实现自动绘画生成特效&#xff0c;这…

管理组件状态

概述 在应用中&#xff0c;界面通常都是动态的。如图1所示&#xff0c;在子目标列表中&#xff0c;当用户点击目标一&#xff0c;目标一会呈现展开状态&#xff0c;再次点击目标一&#xff0c;目标一呈现收起状态。界面会根据不同的状态展示不一样的效果。 图1 展开/收起目标…

李沐机器学习系列1--- 线性规划

1 Introduction 1.1 线性回归函数 典型的线性回归函数 f ( x ) w ⃗ ⋅ x ⃗ f(x)\vec{w} \cdot \vec{x} f(x)w ⋅x 现实生活中&#xff0c;简单的线性回归问题很少&#xff0c;这里有一个简单的线性回归问题。房子的价格和房子的面积以及房子的年龄假设成线性关系。 p r …