【Python爬虫实战】多进程结合 BeautifulSoup 与 Scrapy 构建爬虫项目

#1024程序员节|征文#

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

前言

在大数据时代,爬虫技术是获取和处理网络数据的利器。面对需要处理大量网页的爬取任务,如何提升效率成为了一个重要的问题。Python 的多进程技术结合 BeautifulSoupScrapy,可以在保证解析能力的同时,大大提高并发抓取的效率。这篇文章将详细介绍如何利用多进程模块进行爬虫、结合 JoinableQueue 管理任务,以及在更复杂的场景中使用 BeautifulSoupScrapy,打造功能强大的爬虫项目。


一、多进程爬虫

多进程爬虫是利用Python的多进程模块(如multiprocessing)来并发地抓取网页数据的一种方法。这种方法能够显著提高爬虫的效率,特别是在面对需要处理大量网页时。以下是一些关键点和实现步骤:

(一)多进程的基本概念

  • 多进程:通过创建多个进程来并行执行任务。每个进程都有自己的内存空间和解释器,可以独立工作,适合 CPU 密集型任务。

  • 进程池:使用multiprocessing.Pool可以方便地管理多个进程,自动调度任务。

(二)使用多进程爬虫的好处

  • 提高速度:可以同时请求多个网页,缩短抓取时间。

  • 避免 GIL 限制:Python 的全局解释器锁(GIL)会限制单线程执行,但多进程可以绕过这一限制。

(三)示例

import requests
from multiprocessing import Pooldef fetch_url(url):try:response = requests.get(url)print(f"Fetched {url}: {response.status_code}")return response.textexcept Exception as e:print(f"Failed to fetch {url}: {e}")def main(urls):with Pool(processes=4) as pool:  # 创建4个进程results = pool.map(fetch_url, urls)  # 并发抓取return resultsif __name__ == '__main__':urls = ['https://www.example.com','https://www.example.org','https://www.example.net',# 添加更多网址]main(urls)

(四)注意事项

  • 请求频率:要合理控制请求频率,避免被目标网站封禁。

  • 异常处理:确保处理网络请求中的异常情况,防止程序崩溃。

  • 资源管理:爬取大量数据时,要合理管理内存和 CPU 资源。


二、多进程结合JoinableQueue队列

(一)介绍

使用多进程结合 JoinableQueue 来实现爬虫,可以有效管理任务的执行和跟踪任务完成情况。JoinableQueue 允许你在所有任务完成后进行一些后续操作,这对于处理大量网页的爬虫项目非常有用。

以下是一个使用 multiprocessing.JoinableQueue 的爬虫示例,结合 requestsBeautifulSoup 进行网页抓取和解析。

示例:

import requests
from bs4 import BeautifulSoup
from multiprocessing import Process, JoinableQueue
import time# 定义爬虫工作函数
def worker(queue):while True:url = queue.get()  # 从队列中获取 URLif url is None:  # 用于退出条件queue.task_done()breakprint(f"Fetching: {url}")try:response = requests.get(url, timeout=5)if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')# 假设提取文章标题titles = soup.find_all('h2')for title in titles:print(f"Title: {title.get_text()}")else:print(f"Failed to fetch {url}: {response.status_code}")except Exception as e:print(f"Error fetching {url}: {e}")finally:queue.task_done()  # 标记任务完成# 主函数
def main(urls):queue = JoinableQueue()processes = []# 启动多个工作进程for _ in range(4):  # 根据需要启动的进程数p = Process(target=worker, args=(queue,))p.start()processes.append(p)# 向队列中添加 URLfor url in urls:queue.put(url)# 等待队列中所有任务完成queue.join()  # 阻塞直到所有任务调用 task_done()# 发送退出信号给每个进程for _ in processes:queue.put(None)# 等待所有进程完成for p in processes:p.join()if __name__ == '__main__':urls = ['https://www.example.com/page1','https://www.example.com/page2','https://www.example.com/page3',# 添加更多网址]start_time = time.time()main(urls)print(f"All tasks completed in {time.time() - start_time:.2f} seconds.")

代码解释:

  • 引入库:引入 requests 进行 HTTP 请求,BeautifulSoup 进行 HTML 解析,multiprocessing 模块进行多进程管理。

  • 工作函数 worker

    • JoinableQueue 中获取 URL。

    • 请求页面并解析 HTML 内容。

    • 提取标题,并在控制台打印。

    • 每处理完一个 URL,调用 queue.task_done() 标记任务完成。

  • 主函数 main

    • 创建 JoinableQueue 实例。

    • 启动多个工作进程。

    • 向队列中添加待爬取的 URL。

    • 调用 queue.join(),阻塞主线程,直到所有任务都标记为完成。

    • 发送退出信号(None)给每个进程,确保所有进程能够正常退出。

  • 执行

    • if __name__ == '__main__' 下执行爬虫逻辑,开始爬取指定的 URL。

(二)使用场景

  • 适用于需要高并发、并且需要确保所有任务都能被处理的爬虫项目。

  • 适合处理大量网页抓取任务时,能够有效地管理工作流程和任务状态。


三、构建复杂的多进程项目

结合多进程与 BeautifulSoupScrapy 可以构建更高效、复杂的爬虫项目。根据项目规模和需求,可以选择不同的组合方式。下面介绍两种结合方式:使用 BeautifulSoup 与多进程实现一个轻量级爬虫,以及通过多进程管理多个 Scrapy 爬虫实例的方案。

(一)多进程 + BeautifulSoup 实现轻量级爬虫

这种方案适合中小型爬虫项目,手动管理请求和数据解析,同时使用多进程加速请求处理。适用于需要快速获取网页数据并做简单解析的场景。

示例:

import requests
from bs4 import BeautifulSoup
from multiprocessing import Process, JoinableQueue
import time# 定义爬虫工作函数
def worker(queue):while True:url = queue.get()if url is None:  # 退出条件queue.task_done()breaktry:response = requests.get(url, timeout=5)if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')# 假设需要提取所有标题和链接titles = soup.find_all('h2')  # 根据实际结构调整for title in titles:print(f"Title: {title.get_text()} - URL: {url}")else:print(f"Failed to fetch {url}: {response.status_code}")except Exception as e:print(f"Error fetching {url}: {e}")finally:queue.task_done()# 主函数
def main(urls):queue = JoinableQueue()processes = []# 启动多个进程for _ in range(4):  # 启动4个工作进程p = Process(target=worker, args=(queue,))p.start()processes.append(p)# 添加 URL 到队列for url in urls:queue.put(url)# 等待队列中所有任务完成queue.join()# 发送退出信号给每个进程for _ in processes:queue.put(None)# 等待所有进程完成for p in processes:p.join()if __name__ == '__main__':urls = ['https://www.example.com/page1','https://www.example.com/page2','https://www.example.com/page3',# 添加更多网址]start_time = time.time()main(urls)print(f"All tasks completed in {time.time() - start_time:.2f} seconds.")

代码解释:

  • 使用 requests 库抓取网页,BeautifulSoup 解析 HTML。

  • 利用 multiprocessing.JoinableQueue 管理 URL 队列,每个进程独立处理一个 URL。

  • JoinableQueuetask_donejoin 方法确保主进程在所有任务完成后继续执行。

(二)多进程 + Scrapy 管理大型爬虫项目

Scrapy 是一个功能强大的爬虫框架,自带异步处理和数据管道,但在某些场景下,可以通过多进程来管理多个独立的爬虫任务,尤其是当需要同时爬取多个不同网站时。

(1)编写 Scrapy 爬虫

spiders/my_spider.py 中创建一个简单的 Scrapy 爬虫。

import scrapyclass MySpider(scrapy.Spider):name = 'myspider'start_urls = ['https://www.example.com']def parse(self, response):titles = response.css('h2::text').getall()  # 假设要提取的内容为 <h2> 标签的文本for title in titles:yield {'title': title}

(2)多进程管理多个 Scrapy 实例

创建一个 Python 脚本 run_spiders.py,在其中使用 multiprocessing 启动多个 Scrapy 爬虫实例。

示例:

from multiprocessing import Process
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from myproject.spiders.my_spider import MySpiderdef run_spider():process = CrawlerProcess(get_project_settings())process.crawl(MySpider)process.start()if __name__ == '__main__':processes = []# 启动多个爬虫进程for _ in range(3):  # 根据需求启动多个爬虫实例p = Process(target=run_spider)p.start()processes.append(p)# 等待所有爬虫进程完成for p in processes:p.join()

解释:

  • Scrapy 爬虫:在 my_spider.py 中定义爬虫规则,解析 h2 标签内容。

  • 多进程管理:通过 multiprocessing.Process 启动多个 Scrapy 爬虫实例,每个实例可以处理不同的任务。

  • 适用场景:当需要同时抓取多个不同的网站或执行多个独立爬虫任务时,这种方式可以提高抓取效率。

(三)设计复杂爬虫项目的建议

  • 合理选择并发模式:对于中小型项目,requests + BeautifulSoup + 多进程已经能达到较高的性能;对于大规模项目,Scrapy 是更好的选择。

  • 任务调度和监控:在多进程环境下,确保每个任务有清晰的调度和监控机制,防止资源浪费和任务卡死。

  • 错误处理:无论使用哪种组合方式,都要做好异常处理,避免因为某些 URL 或请求失败而导致整个爬虫崩溃。

  • 延迟和限速:为了避免被目标网站封禁,建议在多进程或异步请求中加入请求延迟和限速机制。

(四)多进行项目总结

  • 多进程 + BeautifulSoup:适合需要手动处理请求和解析的场景,通过 JoinableQueue 管理任务,简单易用。

  • 多进程 + Scrapy:适用于需要处理大规模数据抓取的场景,能够利用 Scrapy 的异步特性,同时通过多进程管理多个任务,适合大规模爬虫项目。


四、总结

通过结合 Python 的多进程能力与数据解析库,如 BeautifulSoupScrapy,我们可以打造高效且灵活的爬虫系统。对于中小型项目,使用多进程加速抓取和解析是一个便捷的选择,而在处理大规模任务时,Scrapy 的异步能力与多进程结合则更为适用。在实际应用中,合理设计爬虫结构和任务管理机制,能够显著提升数据抓取效率。这不仅可以帮助开发者应对数据采集的挑战,更为大数据分析和挖掘奠定了基础。希望本文的介绍能够为你的爬虫项目提供有价值的参考和帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455192.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

报表工具怎么选?山海鲸VS帆软,哪个更适合你?

概述 在国产报表软件市场中&#xff0c;山海鲸报表和帆软这两款工具都占有一席之地&#xff0c;许多企业在选择报表工具时常常在它们之间徘徊。然而&#xff0c;随着企业对数据分析需求的不断增长和复杂化&#xff0c;如何选取一款高效、易用且性价比高的报表工具&#xff0c;…

Linux笔记之文件查找和搜索命令which,find,locate,whereis总结

Linux笔记之文件查找和搜索命令which,find,locate,whereis总结 code review! 文章目录 Linux笔记之文件查找和搜索命令which,find,locate,whereis总结1.对比2.whereis 和 which 命令区别3.locate 和 find 命令区别 1.对比 命令功能说明备注which常用于查找可直接执行的命令。…

【状态机DP】【记忆化搜索1:1翻译递归空间优化】力扣2771. 构造最长非递减子数组

给你两个下标从 0 开始的整数数组 nums1 和 nums2 &#xff0c;长度均为 n 。 让我们定义另一个下标从 0 开始、长度为 n 的整数数组&#xff0c;nums3 。对于范围 [0, n - 1] 的每个下标 i &#xff0c;你可以将 nums1[i] 或 nums2[i] 的值赋给 nums3[i] 。 你的任务是使用最…

【MySQL】表的增删改查(CRUD)

目录 1.前言 2.增加&#xff08;Create&#xff09; 3.查询&#xff08;Retrieve&#xff09; 3.1全列查询 3.2指定列查询 3.3查询字段为表达式 3.4别名 3.5去重&#xff1a;DISTINCT 3.6排序&#xff1a;ORDER BY 3.7条件查询&#xff1a;WHERE 3.8分页查询&#x…

【LLM之Agent】《Tool Learning with Large Language Models: A Survey》论文阅读笔记

概述 背景信息 近年来&#xff0c;基于大型语言模型&#xff08;LLMs&#xff09;的工具学习成为增强LLMs应对复杂任务能力的有力范式。尽管这一领域快速发展&#xff0c;现有文献的碎片化以及缺乏系统组织&#xff0c;给新入门者带来了阻碍。因此&#xff0c;本论文旨在对现…

stable-zero123模型构建指南

一、介绍 stabilityai出品&#xff0c;能够对有简单背景的物体进行三维视角图片的生成&#xff0c;简单来说也就是通过调整变换观察的视角生成对应视角的图片。 本项目通过comfyui实现。 二、容器构建说明 1. 部署ComfyUI &#xff08;1&#xff09;使用命令克隆ComfyUI g…

【设计模式系列】命令模式

目录 一、什么是命令模式 二、命令模式的角色 三、命令模式的典型应用场景 四、命令模式在Runnable中的应用 一、什么是命令模式 命令模式&#xff08;Command Pattern&#xff09;是一种行为设计模式&#xff0c;它将一个请求或简单操作封装为一个对象。这个模式提供了一种…

Axure垂直菜单展开与折叠

亲爱的小伙伴&#xff0c;在您浏览之前&#xff0c;烦请关注一下&#xff0c;在此深表感谢&#xff01; 课程主题&#xff1a;Axure垂直菜单展开与折叠 主要内容&#xff1a;垂直菜单单击实现展开/折叠&#xff0c;点击各菜单项显示选中效果 应用场景&#xff1a;后台菜单设…

Python 应用可观测重磅上线:解决 LLM 应用落地的“最后一公里”问题

作者&#xff1a;彦鸿 背景 随着 LLM&#xff08;大语言模型&#xff09;技术的不断成熟和应用场景的不断拓展&#xff0c;越来越多的企业开始将 LLM 技术纳入自己的产品和服务中。LLM 在自然语言处理方面表现出令人印象深刻的能力。然而&#xff0c;其内部机制仍然不明确&am…

Apache Seata 新版本集成了 RocketMQ 事务消息

大家好&#xff0c;我是君哥。 Apache Seata 是一款高性能、简单易用的分布式事务中间件&#xff0c;它包含 AT、TCC、SAGA 和 XA 四种模式。 在最近发布的新版本中&#xff0c;Apache Seata 引入了 RocketMQ 中间件&#xff0c;并且跟 RocketMQ 的事务消息配合使用。今天我们…

界面控件DevExtreme中文教程 - 如何与Amazon S3和Azure Blob存储集成?

DevExtreme拥有高性能的HTML5 / JavaScript小部件集合&#xff0c;使您可以利用现代Web开发堆栈&#xff08;包括React&#xff0c;Angular&#xff0c;ASP.NET Core&#xff0c;jQuery&#xff0c;Knockout等&#xff09;构建交互式的Web应用程序。从Angular和Reac&#xff0c…

顺序表(一)(数据结构)

一. 线性表 线性表&#xff08;linear list&#xff09;是n个具有相同特性的数据元素的有限序列 。 线性表是一种在实际中广泛使用的数据结构&#xff0c;常见的线性表&#xff1a;顺序表、链表、栈、队列、字符串... 线性表在逻辑上是线性结构&#xff0c;是人为想象出来的数…

1024程序员节 | QT进阶学习——如何通过QT连接云服务器的MySQL数据库并进行数据库操作 和 数据表的增删改查

目录 引出连接本地MySQL1.首先下载MySQL的ODBC驱动2.启动运行&#xff0c;创建用户数据源补充&#xff1a;ANSI 版和 Unicode 版 3.qt代码连接 如何连接华为云服务器中的MySQL1.在Centos中安装Linux版本的ODBC驱动2.在ODBC连接管理器中建立和华为云的链接3.qt代码通过ODBC连接华…

【微软商店平台】如何将exe打包上传微软商店

打开微软合作者中心&#xff1a;https://partner.microsoft.com/en-us/dashboard/home点击App and Games板块可以创建项目。 3. 重新生成包含私钥的自签名证书 运行以下命令&#xff0c;确保生成的证书包含私钥&#xff1a; New-SelfSignedCertificate -Type CodeSigning -Su…

【Java设计模式】1-15章

第1章 内容介绍 1.1 Java设计模式内容介绍 1.1.1 先看几个经典的面试题 1.1.2 设计模式的重要性 1.2 课程亮点和授课方式 第2章 设计模式七大原则 2.1 设计模式的目的 2.2 设计模式七大原则 2.3 ①单一职责原则 方案1 package com.atguigu.principle.singleresponsibili…

【Nuvoton干货分享】开发应用篇 4 -- 8bit MCU Flash 操作

我们在进行实际开发设计中&#xff0c;难免需要进行数据存储&#xff0c;早期很多都是外接EEPROM来进行设计&#xff0c;但是需要增加成本。其实芯片内部的Flash也是可以当成数据存储空间的。本章节主要介绍新唐的8位机如何进行常量数据的存储操作。 一、存储空间划分 我这边…

力扣hot100--DFS/BFS

DFS/BFS 1. 79. 单词搜索 中等 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 单词必须按照字母顺序&#xff0c;通过相邻的单元格内的字母构成&#xff0c;其中“相…

2024 睿抗机器人开发者大赛(RAICOM)-【网络安全】CTF 部分WP

文章目录 一、前言二、MICS你是黑客么循环的压缩包Goodtime 三、WEBpy 四、Crypto变异凯撒RSAcrypto3 一、前言 WP不完整&#xff0c;仅供参考&#xff01; 除WEB&#xff0c;RE&#xff0c;PWN外&#xff0c;其余附件均已打包完毕 也是一个对MISC比较友好的一个比赛~ 123网…

鲸鱼优化算法(Whale Optimization Algorithm, WOA)原理与MATLAB例程

鲸鱼优化算法&#xff08;Whale Optimization Algorithm, WOA&#xff09;是一种基于鲸鱼捕食行为的智能优化算法。它模拟了座头鲸在狩猎时的“气泡网”捕食策略。 文章目录 1.适应度函数2. 更新公式2.1 突袭行为2.2 螺旋更新3.线性递减参数4. 边界处理 MATLAB 实现示例代码说明…

C语言程序设计:现代设计方法习题笔记《chapter3》

第一题 ​ 代码示例&#xff1a; #include<stdio.h>int main() {printf("Enter a date&#xff08;mm/dd/yyyy&#xff09;: ");int day, month, year;scanf_s("%d/%d/%d", &month, &day, &year);printf("%04d%02d%02d", yea…