零基础入门网络爬虫第5天：Scrapy框架

4周

Srapy爬虫框架

不是一个简单的函数功能库，而是一个爬虫框架

安装：pip install scrapy

检测：scrapy -h

Scrapy爬虫框架结构

爬虫框架

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品，能够帮助用户实现网络爬虫

5+2结构

在这里插入图片描述

spiders：入口，用来像整个模块提供要访问的url链接，解析从网络中获得页面的内容

item pipelines：出口。负责对提取的信息进行后处理

engine，downloader，scheduler都是已有的功能实现

用户编写（配置）：spiders item pipelines

Engine：不需要用户修改

控制所有模块之间的数据流
根据条件触发事件

Downloader：不需要用户修改

根据请求下载网页

Schedule：不需要用户修改

对所有的爬取请求进行调度管理

Downloader Middleware：用户可以编写配置代码

目的：实施Engine，Scheduler和Downloader之间进行用户可配置的控制

功能：修改，丢弃，新增请求或响应

如果用户不需要对request或response进行修改的时候，用户可以不更改这个中间件

Spider：需要用户编写配置代码

解析Downloader返回的响应（Response）
产生爬取项（scraped item）
产生额外的爬取请求（request）

Item Pipelines：需要用户编写配置代码

以流水线方式处理Spiders产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个 Item Pipeline类型
可能操作包括：清理，检验和查重爬取项的HTML数据，将数据存储到数据库

Spider Middleware：用户可以编写配置代码

目的：对请求和爬取项的再处理

功能：修改，丢弃，新增请求或爬取项

requests库和Scrapy库的比较

相同点:

两者都可以进行网页请求和爬取，python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js，提交表单，应对验证码等功能（可扩展）

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高（基于异步结构设计）
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

非常小的需求：requests库

不太小的需求：Scrapy框架

定制程度很高的需求（不考虑规模），自搭框架，requests>Scrapy

Scrapy常用命令

Scrapy命令行：

Scrapy是为持续运行设计的专业爬虫框架，提供命令行

命令格式：

在这里插入图片描述

一个工程是一个最大的单元，一个工程相当于大的Scrapy框架内

演示

演示地址：http://python123.io/ws/demo.html

文件名称：demo.html

步骤1：建立一个Scrapy爬虫工程

scrapy startproject python123demo

生成的工程目录

python123demo/————>外层目录

scrapy.cfg—————>部署Scrapy爬虫的配置文件，将这样的爬虫放在特定的服务器上，并且在服务器配置好相关的操作接口。本机来讲，不需要改变部署的配置文件

python123demo/————>Scrapy框架的用户自定义python代码

init.py————>初始化脚本

items.py———>Items代码模板（继承类）

middlewares.py——>Middewares代码模板（继承类）

pipelines.py———>Pipelines代码模板（继承类）

settings,py———>Scrapy爬虫的配置文件

spiders/————>Spiders代码模板目录（继承类）

__init__.py——>初始文件，无需修改

__pycache__/———>缓存目录，无需修改

步骤2：在工程中产生一个Scrapy爬虫

cd python123demo

scrapy genspider demo python123.io

生成了一个demo.py 和要爬取的网页信息

import scrapyclass DemoSpider(scrapy.Spider):name = "demo"allowed_domains = ["python123.io"]start_urls = ["https://python123.io"]def parse(self, response):pass
#pass（）用于处理响应，解析内容形成字典，发现新的URL爬取请求

步骤3：配置产生的spider爬虫

步骤4：运行命令

scrapy crawl demo

import scrapyclass DemoSpider(scrapy.Spider):# 爬虫唯一标识符（运行爬虫时使用）name = "demo"# 允许爬取的域名（当前被注释）# allowed_domains = ["python123.io"]# 起始URL列表（自动生成请求）start_urls = ["https://python123.io/ws/demo.html"]def parse(self, response):""" 响应处理核心方法 """# 从URL提取文件名（取最后一段作为文件名）fname = response.url.split('/')[-1]# 二进制写入模式保存网页内容with open(fname, 'wb') as f:f.write(response.body)  # response.body是原始字节数据self.log('Saved file %s.' % fname)# 应移除pass，可在此添加数据解析逻辑# 例如：生成后续请求或解析数据

在这里插入图片描述

yield关键字的使用

yield<——>生成器

生成器是一个不断产生值的函数
包含yield语句的函数是一个生成器
生成器每次产生一个值（yield语句），函数被冻结，被唤醒后再产生一个值。唤醒时它所使用的局部变量的值跟之前执行所使用的值是一致的

在这里插入图片描述

为什么要有生成器

生成器相比一次列出所有内容的优势
- 更节省存储空间
- 响应更迅速
- 使用更灵活

生成器所使用的元素空间仍然是一个
在这里插入图片描述

Scrapy爬虫的基本使用

步骤1：创建一个工程和Spider模板

步骤2：编写Spider

步骤3：编写Item Pipline

步骤4：优化配置策略

Scrapy爬虫的数据类型

Request类

Response类

item类

Requests类

class scrapy.http.Request()

request对象表示一个HTTP请求
由Spider生成，由Downloader执行

属性或方法	说明
.url	Request对应的请求URL地址
.method	对应的请求方法，‘GET’“POST”等
.headers	字典类型风格的请求头
.body	请求主体内容，字符串类型
.meta	用户添加的扩展信息，在Scrapy内部模块间传递信息使用（实际爬取内容没用）
.copy()	复制该请求

Respone类

class scrapy.http.Response()

Response对象表示一个HTTP响应
由Downloader生成，由Spider处理

属性或方法	说明
.url	response对应的URL地址
.status	HTTP状态码，默认是200
.headers	Response对应的头部信息
.body	Response对应的内容信息，字符串类型
.flags	一组标记
.request	产生Response类型对应的Request对象
.copy()	复制该响应

Item类

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容
由Spider生成，由Item Pipeline处理
Item类似字典类型，可以按照字典类型操作

Scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML信息提取方法，主要应用在spider模块内

Beautiful Soup
Ixml
re
XpathSelector
CSS Selector

CSS Selector的基本使用

在这里插入图片描述

股票数据爬虫

步骤1：建立工程和Spider模板

步骤2：编写Spider

步骤3：编写ITEM Pipelines（对后期提取的数据进行处理）
在这里插入图片描述

在这里插入图片描述

# -*- coding: utf-8 -*-
import scrapy
import reclass StocksSpider(scrapy.Spider):name = "stocks"  # <mcsymbol name="StocksSpider" filename="stocks_spider.py" path="d:\javaexperiment\experiment0\test\stocks_spider.py" startline="5" type="class">爬虫唯一标识符</mcsymbol>start_urls = ['http://quote.eastmoney.com/stocklist.html']  # 起始页面（股票列表页）def parse(self, response):""" 解析股票列表页 """for href in response.css('a::attr(href)').extract():  # 提取所有链接try:stock = re.findall(r"[s][hz]\d{6}", href)[0]  # 正则匹配股票代码url = f'https://gupiao.baidu.com/stock/{stock}.html'  # 构造详情页URLyield scrapy.Request(url, callback=self.parse_stock)  # 生成新请求except:continue  # 跳过无效链接def parse_stock(self, response):""" 解析个股详情页 """infoDict = {}stockInfo = response.css('.stock-bets')  # 定位信息容器# 提取股票名称（含复杂处理）name = stockInfo.css('.bets-name').extract()[0]company = re.findall(r'\s.*\(', name)[0].split()[0]code = re.findall(r'\>.*\<', name)[0][1:-1]# 提取键值对信息keys = [re.sub(r'<.*?>', '', k) for k in stockInfo.css('dt').extract()]values = [re.sub(r'<.*?>', '', v) for v in stockInfo.css('dd').extract()]# 构建数据字典for k, v in zip(keys, values):infoDict[k] = v if re.search(r'\d', v) else '--'infoDict['股票名称'] = f"{company}{code}"yield infoDict

graph TD
A[启动爬虫] --> B(访问股票列表页)
B --> C{遍历所有链接}
C -->|匹配股票代码| D[构造详情页URL]
C -->|不匹配| E[跳过]
D --> F(请求详情页)
F --> G[解析股票数据]
G --> H[生成结构化数据]

# -*- coding: utf-8 -*-class BaidustocksPipeline(object):def process_item(self, item, spider):# 基础管道（未实现具体功能）return item  # 必须返回item对象以传递到后续管道class BaidustocksInfoPipeline(object):def open_spider(self, spider):"""爬虫启动时执行"""self.f = open('BaiduStockInfo.txt', 'w')  # 创建/覆盖写入文件def close_spider(self, spider):"""爬虫关闭时执行"""self.f.close()  # 必须关闭文件def process_item(self, item, spider):"""处理每个item的回调"""try:line = str(dict(item)) + '\n'  # 将item转为字典格式字符串self.f.write(line)  # 写入文本文件except Exception as e:  # 应指定具体异常类型spider.logger.error(f"写入失败: {str(e)}")  # 建议添加日志return item  # 保持item传递链

graph LR
A[爬虫产生Item] --> B[Item经过BaidustocksPipeline]
B --> C[Item经过BaidustocksInfoPipeline]
C --> D[数据写入BaiduStockInfo.txt]

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {'BaiduStocks.pipelines.BaidustocksInfoPipeline': 300,
}