Scrapy源码解析:DownloadHandlers设计与解析

1、源码解析

代码路径:scrapy/core/downloader/__init__.py
详细代码解析,请看代码注释

"""Download handlers for different schemes"""import logging
from typing import TYPE_CHECKING, Any, Callable, Dict, Generator, Union, castfrom twisted.internet import defer
from twisted.internet.defer import Deferredfrom scrapy import Request, Spider, signals
from scrapy.exceptions import NotConfigured, NotSupported
from scrapy.utils.httpobj import urlparse_cached
from scrapy.utils.misc import create_instance, load_object
from scrapy.utils.python import without_none_valuesif TYPE_CHECKING:from scrapy.crawler import Crawlerlogger = logging.getLogger(__name__)class DownloadHandlers:def __init__(self, crawler: "Crawler"):self._crawler: "Crawler" = crawlerself._schemes: Dict[str, Union[str, Callable]] = {}                               # self._schemes 用于存放协议:协议处理器路径的字典,注意是协议处理器的路径,还没有实例化这个协议处理器。self._handlers: Dict[str, Any] = {}  # stores instanced handlers for schemes 用于存放各个协议的下载器的实例self._notconfigured: Dict[str, str] = {}  # remembers failed handlers  # 记录不在设置中设置的协议handlers: Dict[str, Union[str, Callable]] = without_none_values(crawler.settings.getwithbase("DOWNLOAD_HANDLERS") # 读取配置中,设置的什么协议用什么下载器)for scheme, clspath in handlers.items():self._schemes[scheme] = clspath           # 把协议:协议处理器存入self._schemesself._load_handler(scheme, skip_lazy=True)# 在这个循环里就加载了大部分协议下载器。只有s3没有被加载。在调用self._load_handler的时候# 这里传的skip_lazy为True,在self._load_handler内部需要与各个协议下载器中的lazy属性结合判断,最终决定要不要加载crawler.signals.connect(self._close, signals.engine_stopped)def _get_handler(self, scheme: str) -> Any: # 就是根据协议名,获取对应的下载器实例"""Lazy-load the downloadhandler for a schemeonly on the first request for that scheme."""if scheme in self._handlers:       # 如果已经取过对应协议的处理器了,就直接返回该处理器return self._handlers[scheme]if scheme in self._notconfigured:  # 如果是已知的未配置的协议,就直接返回Nonereturn Noneif scheme not in self._schemes:self._notconfigured[scheme] = "no handler available for that scheme" # 第一次出现一个未配置下载器的协议的时候,记录一下这个协议return Nonereturn self._load_handler(scheme)def _load_handler(self, scheme: str, skip_lazy: bool = False) -> Any: # 根据协议名,实例化下载器path = self._schemes[scheme]try:dhcls = load_object(path) # 加载下载器类if skip_lazy and getattr(dhcls, "lazy", True): # 判断要不要惰性加载return Nonedh = create_instance(   # 实例化协议下载器objcls=dhcls,settings=self._crawler.settings,crawler=self._crawler,)except NotConfigured as ex:self._notconfigured[scheme] = str(ex)return Noneexcept Exception as ex:logger.error('Loading "%(clspath)s" for scheme "%(scheme)s"',{"clspath": path, "scheme": scheme},exc_info=True,extra={"crawler": self._crawler},)self._notconfigured[scheme] = str(ex)return Noneelse:self._handlers[scheme] = dhreturn dhdef download_request(self, request: Request, spider: Spider) -> Deferred: # 从request中取出协议,然后取出下载器,下载scheme = urlparse_cached(request).schemehandler = self._get_handler(scheme)if not handler:raise NotSupported(f"Unsupported URL scheme '{scheme}': {self._notconfigured[scheme]}")return cast(Deferred, handler.download_request(request, spider))@defer.inlineCallbacksdef _close(self, *_a: Any, **_kw: Any) -> Generator[Deferred, Any, None]: # 当收到引擎的engine_stopped的信号的时候,挨个的停止各个协议的下载器for dh in self._handlers.values():if hasattr(dh, "close"):yield dh.close()

2、文件解析

可以把DownloadHandlers理解成各个协议下载器的处理器。用来加载各个协议对应的下载器的处理器。下图可以看出scrapy默认提供了data、file、ftp、http、s3协议的下载器。
在这里插入图片描述

3、结构示意图

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/461805.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何解决docker镜像下载失败问题

经常用docker的朋友都知道,docker hub的镜像仓库经常访问不通 rootiZwz97kfjnf78copv1ae65Z:~# docker pull ubuntu:18.04 Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.…

探索 ONLYOFFICE:开源办公套件的魅力

文章目录 引言一、ONLYOFFICE 产品介绍与历史1.1 ONLUOFFICE 介绍1.2 ONLYOFFICE发展历史 二、ONLYOFFICE 的核心功能2.1 文档处理2.2 演示文稿 三、ONLYOFFICE 部署与安装四、ONLYOFFICE 产品优势和挑战五、ONLYOFFICE 案例分析六、ONLYOFFICE 的未来发展七、全文总结 引言 在…

FlaskFastAPIgunicornunicorn并发调用

Flask VS. FastAPI Flask和FastAPI是Python中两种流行的Web框架,它们各自具有不同的特点和适用场景。以下是它们之间的一些主要区别: 1. 框架类型 Flask:Flask是一个轻量级的微框架,适合构建小型到中型的Web应用。它灵活且易于扩展…

第2章 JSP基础

JavaWeb程序设计-T2(JSP基础) 一、JSP概述 1、JSP概念 JSP(Java Server Page)是sun公司倡导建立的一种动态网页标准。 用于开发动态网页(将后端开发语言嵌入带前端中【将java嵌入到HTML中】) 2、JSP工作原理 JSP就是将传统Java代码嵌入到html页面代码中,由Web服务器进…

Unix 中文件权限设置

在 Unix 和类 Unix 系统中,文件权限是通过八进制数表示的,这些数字代表不同的权限组合。以下是一些常见的八进制数及其对应的权限设置: 1. **0644**: - 所有者(owner):读(read&a…

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录 参考书,学习书 0 统计学知识大致脉络 1 个体---抽样---整体 1.1 关于个体---抽样---整体,这个三段式关系 1.2 要明白,自然界的整体/母体是不可能被全部认识的 1.2.1 不要较真,如果是人为定义的一个整体,是可…

《Python游戏编程入门》注-第4章5

2.3 实现开始游戏的功能 当显示图1所示的游戏启动界面后,根据提示点击“确定”按键,则可以开始游戏。也就是要完成键盘监听的功能,当游戏程序监听到玩家点击了“确定”按键后,开始游戏。 在《Python游戏编程入门注-第4章2》中介…

mysql中的锁理解

1.共享锁,排他锁,也叫读锁和写锁 共享锁(S锁)(读锁):事务在读取记录的时候获取共享锁,允许其它事务同时获取共享锁。 排他锁(X锁)(写锁):事务在修改记录的时候获取排他锁,只允许一个事务获取排他锁&#x…

【C++】位图详解(一文彻底搞懂位图的使用方法与底层原理)

目录 1.位图的概念 2.位图的使用方法 定义与创建 设置和清除 位访问和检查 转换为其他格式 3.位图的使用场景 1.快速的查找某个数据是否在一个集合中 2.排序去重 3.求两个集合的交集和并集 4.位图的底层实现 私有成员定义与初始化 set和reset的实现 前面的博客我们…

补齐:相交链表:扣160

梦重新开始的地方 – 相交链表 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。图示两个链表在节点 c1 开始相交: 示例: 何解? 暴力&…

Python:入门基础

目录 常量和表达式 变量 变量的语法 变量的类型 动态类型特性 注释的使用 输入和输出 通过控制台输出 通过控制台输入 运算符 算术运算符 关系运算符 逻辑运算符 赋值运算符 常量和表达式 print是Python中的一个内置函数,使用print函数可以将数据打印…

手动搭建koa+ts项目框架(node开发配置环境变量)

文章目录 一、安装所需依赖二、设置package.json三、定义ts (可选)四、配置环境变量文件五、引入变量文件总结如有启发,可点赞收藏哟~ 一、安装所需依赖 pnpm add dotenv二、设置package.json 先配置脚本设置对应环境变量NODE_ENV {"…

吞吐量最高飙升20倍!破解强化学习训练部署难题

**强化学习(RL)对大模型复杂推理能力提升有关键作用,然而,RL 复杂的计算流程以及现有系统局限性,也给训练和部署带来了挑战。近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow(开源项…

Unity 插件编译版本.net 4.0

项目中用到了Google.ProtocolBuffersLite.dll 这个动态链接库,在升级完Unity版本后出现了 ”Unity targets .NET 4.x and is marked as compatible with editor, Editor can only use assemblies targeting .NET 3.5 or lower“ 的问题。 解决方法: 1、…

Cpp二叉搜索树的讲解与实现(21)

文章目录 前言一、二叉搜索树的概念定义特点 二、二叉树的实现基本框架查找插入删除当只有0 ~ 1个孩子的时候当有2个孩子的时候 三、二叉树的应用K模型KV模型 四、二叉树的性能分析总结 前言 这是全新的一个篇章呢,二叉搜索树是我们接下来学习set、map的前提 迈过它…

Elasticsearch —— ES 环境搭建、概念、基本操作、文档操作、SpringBoot继承ES

文章中会用到的文件,如果官网下不了可以在这下 链接: https://pan.baidu.com/s/1SeRdqLo0E0CmaVJdoZs_nQ?pwdxr76 提取码: xr76 一、 ES 环境搭建 注:环境搭建过程中的命令窗口不能关闭,关闭了服务就会关闭(除了修改设置后重启的…

第八届御网杯线下赛Pwn方向题解

由于最近比赛有点多,而且赶上招新,导致原本应该及时总结的比赛搁置了,总结来说还是得多练,因为时间很短像这种线下赛,一般只有几个小时,所以思路一定要清晰,我还是经验太少了,导致比…

Ethernet 系列(6)-- 基础学习::OSI Model

(写在前面:最近在学习车载以太网的知识,顺便记录一下知识点。) OSI(Open System Interconnect )模型是一种网络通信框架,由国际标准化组织(‌ISO)在1985年提出&#xff0…

Java 字符流详解

在 Java 的 I/O 体系中,字符流(Reader 和 Writer)是专门用于处理文本数据的输入输出流。与字节流不同,字符流以字符为单位进行读取和写入,能够更好地处理文本信息,尤其是包含多字节字符(如中文&…

Linux 多线程编程

韦东山的例程所谓线程,就是操作系统所能调度的最小单位。普通的进程,只有一个线程在执行对应的逻辑。我们可以通过多线程编程,使一个进程可以去执行多个不同的任务。相比多进程编程而言,线程享有共享资源,即在进程中出…