使用 Python 的 BeautifulSoup 与 Flask/Flask-RESTful 集成进行数据爬取和 API 构建

在现代 Web 开发中，许多应用需要从其他网页提取数据并将其呈现为 API 服务。Python 的 BeautifulSoup 是一个流行的 HTML 解析库，用于从网页抓取和解析数据，而 Flask 是轻量级 Web 框架，用于快速构建 Web 应用和 API。如果需要通过 Web API 提供数据服务，可以使用 Flask-RESTful，这是一个适用于 Flask 的扩展库，用于构建 RESTful 风格的 API。

在本文中，我们将讲解如何将 BeautifulSoup 和 Flask/Flask-RESTful 集成，以便从网页抓取数据并通过 API 提供服务。

在这里插入图片描述

1. 项目概述

在这个项目中，我们将使用 BeautifulSoup 抓取网页数据，并通过 Flask 和 Flask-RESTful 创建一个 RESTful API，让用户通过 API 访问抓取到的数据。主要步骤包括：

抓取数据：使用 BeautifulSoup 抓取目标网页数据。
构建 API：使用 Flask 和 Flask-RESTful 创建 API，并将抓取的数据提供给客户端。
响应数据：使用 JSON 格式响应客户端请求。

2. 所需工具和安装

在开始编程之前，需要安装几个库：

Flask：轻量级的 Web 框架
Flask-RESTful：用于构建 REST API 的 Flask 扩展
BeautifulSoup4：用于 HTML 解析和数据提取
requests：用于发送 HTTP 请求

可以通过以下命令安装这些库：

pip install flask flask-restful beautifulsoup4 requests

3. 使用 `BeautifulSoup` 抓取数据

首先，我们需要了解如何使用 BeautifulSoup 从网页抓取数据。假设我们要抓取一个简单网页上的标题和段落内容，代码如下：

import requests
from bs4 import BeautifulSoupdef scrape_data(url):response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 获取网页标题title = soup.title.string if soup.title else "No Title"# 获取所有段落内容paragraphs = [p.get_text() for p in soup.find_all('p')]return {"title": title, "paragraphs": paragraphs}

代码解析

requests.get(url)：发送 GET 请求以获取网页的 HTML 内容。
soup = BeautifulSoup(response.text, 'html.parser')：使用 BeautifulSoup 解析 HTML。
soup.title.string：获取网页的标题。
soup.find_all('p')：查找所有 <p> 标签并提取内容。

4. 使用 Flask 创建基本 Web 服务

我们可以用 Flask 创建一个简单的 Web 服务，通过 URL 参数提供爬取目标，并返回抓取的数据。创建一个名为 app.py 的文件，并添加以下代码：

from flask import Flask, jsonify, request
from bs4 import BeautifulSoup
import requestsapp = Flask(__name__)# 定义一个路由，用于获取指定网址的内容
@app.route('/scrape', methods=['GET'])
def scrape():url = request.args.get('url')if not url:return jsonify({"error": "URL is required"}), 400try:response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 提取标题和段落title = soup.title.string if soup.title else "No Title"paragraphs = [p.get_text() for p in soup.find_all('p')]# 返回 JSON 格式的数据return jsonify({"title": title, "paragraphs": paragraphs})except requests.exceptions.RequestException as e:return jsonify({"error": str(e)}), 500if __name__ == '__main__':app.run(debug=True)

代码解释

@app.route('/scrape', methods=['GET'])：定义一个 GET 请求的路由 /scrape，用于接收客户端请求。
request.args.get('url')：从请求参数中获取 URL。
数据抓取与解析：使用 BeautifulSoup 抓取和解析网页内容。
返回 JSON 响应：使用 jsonify 将数据转换为 JSON 格式返回给客户端。

启动 Flask 服务

在终端中运行以下命令来启动 Flask 服务器：

python app.py

访问 http://127.0.0.1:5000/scrape?url=<目标网址> 来查看输出。例如：

http://127.0.0.1:5000/scrape?url=https://example.com

5. 使用 Flask-RESTful 创建 RESTful API

Flask-RESTful 是 Flask 的一个扩展库，用于快速创建 RESTful API。下面我们将基于前面的例子，将 Flask-RESTful 集成进来，并重构代码。

from flask import Flask, request
from flask_restful import Api, Resource
from bs4 import BeautifulSoup
import requestsapp = Flask(__name__)
api = Api(app)class ScrapeAPI(Resource):def get(self):url = request.args.get('url')if not url:return {"error": "URL is required"}, 400try:response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 提取标题和段落title = soup.title.string if soup.title else "No Title"paragraphs = [p.get_text() for p in soup.find_all('p')]return {"title": title, "paragraphs": paragraphs}except requests.exceptions.RequestException as e:return {"error": str(e)}, 500# 将 ScrapeAPI 注册为资源
api.add_resource(ScrapeAPI, '/scrape')if __name__ == '__main__':app.run(debug=True)

代码解析

class ScrapeAPI(Resource)：创建一个 API 资源类 ScrapeAPI，定义 GET 请求的处理逻辑。
api.add_resource(ScrapeAPI, '/scrape')：将 ScrapeAPI 注册到 /scrape 路由上。
app.run(debug=True)：以调试模式运行应用程序。

通过将 Flask-RESTful 集成进来，代码变得更模块化，便于扩展和维护。现在可以通过访问 http://127.0.0.1:5000/scrape?url=<目标网址> 来使用 API。

6. 处理请求错误和异常

为了让 API 更加健壮，我们需要处理请求可能出现的错误，例如无效的 URL 或请求超时。

在 ScrapeAPI 类中，可以添加错误处理：

try:response = requests.get(url, timeout=5)response.raise_for_status()  # 检查请求是否成功
except requests.exceptions.MissingSchema:return {"error": "Invalid URL format"}, 400
except requests.exceptions.Timeout:return {"error": "Request timeout"}, 408
except requests.exceptions.RequestException as e:return {"error": str(e)}, 500

这样可以更全面地捕获错误，并返回适当的 HTTP 状态码和错误信息。

7. 项目运行示例

启动服务器并测试 API。以下是 API 调用的请求示例和响应示例：

请求示例

GET /scrape?url=https://example.com

响应示例

{"title": "Example Domain","paragraphs": ["This domain is for use in illustrative examples in documents.","You may use this domain in literature without prior coordination or asking for permission."]
}