以下是一个完整的 Python 脚本,用于爬取豆瓣电影 Top250 的数据,包括电影名称、评分和短评。同时,我将提供应对豆瓣页面结构更新和反爬虫机制的调整方法。
安装必要的库
首先,确保安装了必要的库:
bash复制
pip install requests beautifulsoup4 pandas
示例代码
Python复制
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random# 设置请求头,模拟浏览器行为,避免被服务器拒绝
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}# 初始化数据列表
data = []# 循环遍历所有页面
for start in range(0, 250, 25): # 总共250部电影,每页25部电影url = f"https://movie.douban.com/top250?start={start}"response = requests.get(url, headers=headers)if response.status_code == 200:print(f'Page {start //