【Python爬虫实战】使用BeautifulSoup和Scrapy抓取网页数据！

在当今信息爆炸的时代，数据无处不在，如何有效地抓取、处理和分析这些数据成为了许多开发者和数据科学家的必修课。本篇博客将深入探讨如何使用Python中的两个强大工具：BeautifulSoup和Scrapy来抓取网页数据。我们将从基础知识开始，逐步深入到实际应用，最终实现一个完整的爬虫项目。

1. 什么是爬虫？

网络爬虫（Web Crawler）是一种自动访问互联网并提取信息的程序。它可以帮助我们从网站上获取大量数据，进行分析和处理。爬虫的应用非常广泛，比如搜索引擎、数据分析、市场调研等。

2. 准备工作

在开始之前，我们需要确保已经安装了Python及其相关库。可以使用pip进行安装：

pip install requests beautifulsoup4 scrapy

requests：用于发送网络请求。
beautifulsoup4：用于解析HTML和XML文档。
scrapy：一个强大的网络爬虫框架。

3. 使用BeautifulSoup抓取网页数据

3.1. BeautifulSoup简介

BeautifulSoup是一个用于解析HTML和XML的Python库。它可以将复杂的网页结构转化为一个易于操作的树形结构，使得我们能够轻松提取网页中的信息。

3.2. 示例：抓取豆瓣电影排行榜

在这个示例中，我们将抓取豆瓣电影排行榜的前10部电影及其评分。

3.2.1. 发送请求

首先，我们需要发送一个HTTP请求来获取网页的HTML内容。

import requests
from bs4 import BeautifulSoupurl = 'https://movie.douban.com/chart'
response = requests.get(url)
html_content = response.text

3.2.2. 解析HTML

接下来，我们使用BeautifulSoup来解析HTML内容。

soup = BeautifulSoup(html_content, 'html.parser')

3.2.3. 提取数据

我们将查找电影标题和评分，并将结果存储在一个列表中。

movies = []for item in soup.select('.item'):title = item.select_one('.title').textrating = item.select_one('.rating_num').textmovies.append({'title': title, 'rating': rating})print(movies)

3.3. 完整代码

将上述代码整合成一个完整的爬虫程序：

import requests
from bs4 import BeautifulSoupdef get_movies():url = 'https://movie.douban.com/chart'response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')movies = []for item in soup.select('.item'):title = item.select_one('.title').textrating = item.select_one('.rating_num').textmovies.append({'title': title, 'rating': rating})return moviesif __name__ == '__main__':movie_list = get_movies()for movie in movie_list:print(movie)

4. 使用Scrapy抓取网页数据

4.1. Scrapy简介

Scrapy是一个功能强大的爬虫框架，适合进行大规模数据抓取和处理。它提供了许多高级特性，如异步处理、请求调度和数据管道等。

4.2. 创建Scrapy项目

我们可以使用Scrapy命令行工具创建一个新的爬虫项目：

scrapy startproject douban_movies

这将创建一个名为douban_movies的文件夹，里面包含项目的基本结构。

4.3. 编写爬虫

在项目中，我们需要创建一个新的爬虫文件，比如douban.py，并实现爬虫的逻辑。

4.3.1. 编写爬虫代码

在spiders目录下创建douban.py文件，内容如下：

import scrapyclass DoubanSpider(scrapy.Spider):name = 'douban'start_urls = ['https://movie.douban.com/chart']def parse(self, response):for item in response.css('.item'):yield {'title': item.css('.title::text').get(),'rating': item.css('.rating_num::text').get(),}

4.4. 运行爬虫

我们可以通过以下命令运行爬虫，并将结果保存到JSON文件中：

scrapy crawl douban -o movies.json

5. 数据存储

在爬虫抓取数据后，我们通常需要将数据存储到数据库或文件中。Scrapy提供了数据管道（Item Pipeline）来处理数据存储。我们可以在settings.py中配置管道，使用SQLite或MongoDB等数据库进行存储。

6. 处理反爬虫机制

许多网站都有反爬虫机制，比如IP封禁、用户代理检查等。我们可以通过以下方式来绕过这些限制：

6.1. 设置用户代理

在Scrapy的设置中，我们可以自定义用户代理：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

6.2. 设置代理IP

使用代理IP可以有效防止IP封禁，Scrapy也支持在请求中设置代理。

7. 实践：爬取多个页面

在实际应用中，我们往往需要爬取多个页面的数据。我们可以在Scrapy中使用start_requests方法来实现这一点。

7.1. 修改爬虫代码

修改DoubanSpider中的start_requests方法，实现分页抓取：

def start_requests(self):for page in range(0, 10):  # 抓取前10页yield scrapy.Request(url=f'https://movie.douban.com/chart?start={page * 10}', callback=self.parse)

8. 数据清洗和分析

抓取到的数据往往需要进行清洗和分析。我们可以使用Pandas库来处理数据，进行数据清洗、统计分析和可视化等操作。

8.1. 安装Pandas

使用以下命令安装Pandas库：

pip install pandas

8.2. 数据清洗示例

以下是一个简单的数据清洗示例：

import pandas as pd# 读取抓取的数据
data = pd.read_json('movies.json')# 数据清洗
data['rating'] = data['rating'].astype(float)  # 将评分转为浮点数
cleaned_data = data.dropna()  # 删除缺失值# 打印清洗后的数据
print(cleaned_data)