Scrapy框架:Python爬虫开发快速入门与初试

在众多编程语言中,Python以其简洁的语法和强大的库支持,成为了编写爬虫的首选语言。而在Python的爬虫库中,Scrapy框架无疑是其中的佼佼者。Scrapy是一个开源的、基于Python的爬虫框架,它提供了一套完整的工具和功能,使得爬虫的开发变得简单而高效。
在这里插入图片描述

一、Scrapy框架概述

Scrapy作为一个高效的爬虫框架,确实能够解决你提到的原生爬虫面临的一些问题,并且具有一些独特的特点。下面我们来一一对应你提到的问题,看看Scrapy是如何应对的:

1. 分布式爬虫

Scrapy的应对:
Scrapy本身是设计为单机运行的爬虫框架,但它支持分布式爬虫的构建。可以通过以下几种方式实现分布式爬虫:

  • 使用Scrapy-Redis:这是一个Scrapy的插件,它允许Scrapy与Redis协作,将任务队列和去重集合存储在Redis中,从而实现多个Scrapy实例之间的任务分配和去重。
  • 自定义分布式系统:开发者可以根据自己的需求,编写代码来分配任务和合并结果,实现更复杂的分布式爬虫系统。

2. URL去重

Scrapy的应对:
Scrapy内置了去重机制,它使用一个集合(Set)来存储已经见过的URL,避免重复爬取。这个集合可以存储在内存中,也可以通过配置存储到外部存储系统中,如Redis,以实现持久化。

3. 断点续爬

Scrapy的应对:
Scrapy支持断点续爬的功能,可以通过以下几种方式实现:

  • 请求队列:Scrapy的请求队列可以存储未处理的请求,如果爬虫程序意外停止,可以重新启动并从队列中继续处理。
  • 去重集合:Scrapy的去重集合可以记录已经处理过的URL,即使程序重启,也可以从这个集合中恢复状态。
  • JOBDIR:Scrapy支持JOBDIR设置,可以将爬虫的状态保存到文件中,重启时可以从这个文件中恢复爬取状态。

4. 动态加载

Scrapy的应对:
Scrapy主要处理静态网页的爬取,对于动态加载的内容,Scrapy本身不直接支持。但是,可以通过以下方式来处理:

  • Scrapy-Splash:这是一个Scrapy的插件,它使用Splash作为服务来处理JavaScript渲染的页面,可以模拟浏览器的行为,处理动态加载的内容。
  • Scrapy-Selenium:这个插件允许Scrapy与Selenium集成,使用Selenium来处理JavaScript渲染的页面。

二、Scrapy框架安装

Scrapy框架的安装非常简单,只需要使用Python的包管理器pip即可完成安装。在命令行中输入以下命令:

pip install scrapy

这行命令会下载并安装Scrapy框架及其依赖项,为后续的爬虫开发打下基础。

三、创建Scrapy项目

创建一个Scrapy项目是开始爬虫开发的第一步。通过以下命令,我们可以快速创建一个新的Scrapy项目:

scrapy startproject formoon

执行该命令后,Scrapy会在当前目录下创建一个名为formoon的文件夹,其中包含了一个基本的Scrapy项目结构。

四、添加爬虫

在Scrapy项目中,我们可以添加多个爬虫模块,每个模块负责不同的爬取任务。添加一个新的爬虫模块,可以使用以下命令:

scrapy genspider pages formoon.github.io

这条命令会在项目的spiders目录下创建一个新的Python文件pages.py,这个文件将包含爬虫的基本框架。

五、编写爬虫逻辑

pages.py文件中,我们需要编写爬虫的逻辑。假设我们的目标是爬取https://formoon.github.io网站上的所有文章,并获取文章的标题、链接地址和发布日期。以下是完成这一任务的代码示例:

import scrapyclass PagesSpider(scrapy.Spider):name = 'chinaisapages'allowed_domains = ['chinaisa.org.cn']start_urls = ['https://www.chinaisa.org.cn/gxportal/xfgl/portal/index.html']baseurl='ttps://www.chinaisa.org.cn/'def parse(self, response):for course in response.xpath('//ul/li'):href = self.baseurl + course.xpath('a/@href').extract()[0]title = course.css('.card-title').xpath('text()').extract()[0]date = course.css('.card-type.is-notShownIfHover').xpath('text()').extract()[0]print(title, href, date)for btn in response.css('.container--call-to-action').xpath('a'):href = btn.xpath('@href').extract()[0]name = btn.xpath('button/text()').extract()[0]if name == "下一页":yield scrapy.Request(self.baseurl + href, callback=self.parse)

注:代码未补全,请自动调试

六、执行爬虫

编写完爬虫逻辑后,我们可以通过以下命令执行爬虫:

scrapy crawl chinaisapages

执行该命令后,Scrapy会启动爬虫,按照我们定义的逻辑进行数据爬取,并在控制台输出结果。

七、进阶使用:Items和Pipelines

对于更复杂的爬虫任务,Scrapy提供了Items和Pipelines两个高级特性。Items用于定义数据结构,而Pipelines则用于处理Items中的数据。

首先,我们需要在项目的items.py文件中定义一个Item:

import scrapyclass FormoonItem(scrapy.Item):title = scrapy.Field()link = scrapy.Field()date = scrapy.Field()

然后,在pipelines.py文件中定义一个Pipeline来处理这些Item:

class FormoonPipeline(object):def process_item(self, item, spider):print("%s %s %s" % (item['date'], item['title'], item['link']))return item

最后,我们需要在settings.py文件中启用这个Pipeline:

ITEM_PIPELINES = {'formoon.pipelines.FormoonPipeline': 300,
}

项目配置文件

在Scrapy框架中,settings.py 文件是项目配置文件,它包含了项目运行时的各种设置。以下是您提到的两个配置项的说明:

  1. ROBOTSTXT_OBEY = False

    • 作用:此设置项用于控制Scrapy是否遵守目标网站的robots.txt文件规定。
    • 默认值:默认情况下,ROBOTSTXT_OBEY设置为True,意味着Scrapy会尊重robots.txt文件中的规则,不爬取被禁止的内容。
    • 使用场景:如果设置为False,则Scrapy将无视robots.txt文件,爬取所有页面,但这样做可能会违反网站的规定,甚至可能触犯法律,因此请谨慎使用,并确保你有权爬取目标网站的数据。
  2. DOWNLOAD_DELAY = 10

    • 作用:此设置项用于控制Scrapy下载中间件在请求之间的延迟时间。
    • 单位:时间单位为秒。
    • 默认值:默认情况下,DOWNLOAD_DELAY设置为0,意味着Scrapy在发送请求时不会有延迟。
    • 使用场景:如果设置了一个大于0的值,Scrapy在每次请求后会暂停指定的秒数。这通常用于减轻对目标网站服务器的压力,避免因请求过于频繁而被封锁。例如,设置DOWNLOAD_DELAY = 10意味着Scrapy在每次请求后会等待10秒钟再发送下一个请求。

日志的开启
Scrapy框架使用Python的内置logging模块来处理日志。要开启日志,你可以在settings.py文件中配置日志级别和其他相关设置。以下是一些基本的日志配置:

  • LOG_LEVEL:设置日志级别,如DEBUG, INFO, WARNING, ERROR, CRITICAL
    LOG_LEVEL = 'DEBUG'
    
  • LOG_FILE:设置日志输出文件的路径。
    LOG_FILE = 'scrapy.log'
    
  • LOG_ENABLED:开启或关闭日志记录功能。
    LOG_ENABLED = True
    

要开启日志,你可以在settings.py中设置LOG_ENABLEDTrue,并选择合适的LOG_LEVEL。Scrapy会根据配置输出不同级别的日志信息,帮助你调试和监控爬虫的运行情况。例如,DEBUG级别会输出最详细的日志,包括每个请求和响应的详细信息,而INFO级别则提供了较为概括的运行信息。

参考链接

  • Scrapy中文文档:Scrapy官方文档
  • XPath教程:XPath教程
  • CSS选择器使用手册:CSS选择器手册

通过本文的介绍,相信读者已经对Scrapy框架有了初步的了解,并能够开始使用Scrapy进行爬虫开发。在实际应用中,Scrapy的强大功能和灵活性将进一步展现出来,帮助我们高效地完成数据采集任务。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/468160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言 | Leetcode C语言题解之第543题二叉树的直径

题目: 题解: typedef struct TreeNode Node;int method (Node* root, int* max) {if (root NULL) return 0;int left method (root->left, max);int right method (root->right, max);*max *max > (left right) ? *max : (left right);…

探索Python视频处理的瑞士军刀:ffmpeg-python库

文章目录 **探索Python视频处理的瑞士军刀:ffmpeg-python库**第一部分:背景介绍第二部分:ffmpeg-python库是什么?第三部分:如何安装ffmpeg-python库?第四部分:简单库函数使用方法1. 视频转码2. …

King3399(ubuntu文件系统)wifi设备树分析

该文章仅供参考,编写人不对任何实验设备、人员及测量结果负责!!! 0 引言 文章主要介绍King3399(ubuntu)wifi设备树,涉及king-rk3399.dts、rp-wifi-sdio.dtsi内容修改与介绍 在使用wifi前本人遇到了一个比较奇怪的问…

Elmo驱动器上位机软件的详细配置

续接上文,本文讲解Elmo驱动器上位机软件更详细的配置,重点关注,在电机的位置受到约束的情况下,完成驱动器的参数整定过程,以及一些调试方法 一 硬件介绍 本文使用的是另一套设备,假设电机的位置是受到约束的 1 编码器规格书 编码器已知信息是 :读数头是26位的,通讯…

【Python】爬虫使用代理IP

1、代理池 IP 代理池可以理解为一个池子,里面装了很多代理IP。 池子里的IP是有生命周期的,它们将被定期验证,其中失效的将被从池子里面剔除池子里的ip是有补充渠道的,会有新的代理ip不断被加入池子中池子中的代理ip是可以被随机…

Ascend Extension for PyTorch是个what?

1 Ascend Extension for PyTorch Ascend Extension for PyTorch 插件是基于昇腾的深度学习适配框架,使昇腾NPU可以支持PyTorch框架,为PyTorch框架的使用者提供昇腾AI处理器的超强算力。 项目源码地址请参见Ascend/Pytorch。 昇腾为基于昇腾处理器和软…

【HarmonyOS Next】数据本地存储:@ohos.data.preferences

【HarmonyOS Next】数据本地存储:ohos.data.preferences 在开发现代应用程序时,数据存储是一个至关重要的过程。应用程序为了保持某些用户设置、应用状态以及其他小量数据信息通常需要一个可靠的本地存储解决方案。在 HarmonyOS Next 环境下&#xff0c…

数据结构——二叉树(续集)

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨个人…

MySQL性能测试方案设计

在现代互联网系统中,数据库性能直接影响到整体应用的速度和用户体验。而MySQL作为广泛使用的关系型数据库,随着数据量和并发请求的增长,其性能问题也日益突出。今天我们将深入探讨如何设计一套高效的MySQL性能测试方案,帮助你精准…

cv::intersectConvexConvex返回其中一个输入点集,两个点集不相交

问题:cv::intersectConvexConvex返回其中一个输入点集,但两个点集并不相交 版本:opencv 3.1.0 git上也有人反馈了intersectConvexConvex sometimes returning one of the input polygons in case of empty intersection #10044 是凸包嵌套判…

【学习笔记】SAP ABAP——内表

内表定义 ​ 内表是SAP ABAP中最具有影响力且最重要的功能之一,简而言之,用一句话概括内表的定义就是:***内表是可以在程序内部定义并且使用的表,属于本地表。***如下图展示出了参照数据库表sflight定义的内表的结构 内表与数据库…

MinerU容器构建教程

一、介绍 MinerU作为一款智能数据提取工具,其核心功能之一是处理PDF文档和网页内容,将其中的文本、图像、表格、公式等信息提取出来,并转换为易于阅读和编辑的格式(如Markdown)。在这个过程中,MinerU需要利…

[产品管理-66]:七步法创新工具:SCAMPER法,也被称为奔驰法,一种创新思考工具,帮助我们基于现有的产品找到产品创新突破的方向

SCAMPER法,也被称为奔驰法,是一种创新思考工具,由美国心理学家罗伯特艾伯尔(也有说法是教育家和创新思考专家鲁伯特普里斯科特)提出。这种检核表主要藉几个字的代号或缩写,代表七种改进或改变的方向&#x…

算法求解(C#)-- 寻找包含目标字符串的最短子串算法

1. 引言 在字符串处理中,我们经常需要从一个较长的字符串中找到包含特定目标字符串的最短子串。这个问题在文本搜索、基因序列分析等领域有着广泛的应用。本文将介绍一种高效的算法来解决这个问题。 2. 问题描述 给定一个源字符串 source 和一个目标字符串 targe…

IDEA启动提示Downloading pre-built shared indexes

Download pre-built shared indexes Reduce the indexing time and CPU load with pre-built JDK shared indexes 翻译: 下载预构建的共享索引 使用预构建的JDK共享索引减少索引时间和CPU负载. 使用预构建的JDK共享索引可以显著减少索引构建时间和CPU负载&#xf…

【DM系列】DM 集成 JDBC 开发指南

前言 数据库访问是数据库应用系统中非常重要的组成部分,DM 作为一个通用数据库管理系统,提供了多种数据库访问接口,包括 ODBC、JDBC、DPI 等方式。本开发指南详细介绍了 DM 的各种访问接口、相应开发环境的配置、以及一些开发用例。本指南的主…

处理PhotoShopCS5和CS6界面字体太小

处理PhotoShop CS6界面字体太小 背景:安装PhotoShop CS6后发现无法调大字体大小,特别是我的笔记本14寸的,显示的字体小到离谱。 百度好多什么降低该电脑分辨率,更改电脑的显示图标大小,或者PS里的首选项中的界面设置。…

【JavaEE进阶】Spring AOP 原理

在之前的博客中 【JavaEE进阶】Spring AOP使用篇_aop多个切点-CSDN博客 我们主要学习了SpringAOP的应用, 接下来我们来学习SpringAOP的原理, 也就是Spring是如何实现AOP的. SpringAOP 是基于动态代理来实现AOP的,咱们学习内容主要分以下两部分 1.代理模式 2.Spring AOP源码剖…

基于springboot+vu的二手车交易系统(全套)

一、系统架构 前端:vue | element-ui | html 后端:springboot | mybatis-plus 环境:jdk1.8 | mysql | maven | nodejs 二、代码及数据库 三、功能介绍 01. web端-首页1 02. web端-首页2 03. web端-注册 04. web端-登录 05. w…

macOS开发环境配置与应用开发(详细讲解)

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 macOS作为Apple公司推出的桌面操作系统,以其稳定性、优雅的用户界面和强大的开发工具吸引了大量开发者。对于…