Python网络爬虫实践案例：爬取猫眼电影Top100

以下是一个Python网络爬虫的实践案例，该案例将演示如何使用Python爬取猫眼电影Top100的电影名称、主演和上映时间等信息，并将这些信息保存到TXT文件中。此案例使用了requests库来发送HTTP请求，使用re库进行正则表达式匹配，并包含详细的代码解释，以确保代码可以直接运行。

1. 准备工作

在开始之前，我们需要确保已经安装了requests库。我们可以使用以下命令进行安装：

bash复制代码pip install requests

2.猫眼电影Top100的信息是从哪些页面爬取的呢

猫眼电影Top100的信息是从猫眼电影的官方网站（如 https://maoyan.com/board/4 ）爬取的。具体来说，这个页面展示了猫眼电影Top100的榜单，包含了电影的排名、名称、主演、上映时间、评分等详细信息。

在爬取过程中，爬虫程序会模拟浏览器行为发送HTTP请求到该页面的URL，并接收服务器返回的HTML内容。然后，程序会使用正则表达式或解析库（如BeautifulSoup、lxml等）来解析HTML内容，提取出所需的信息（如电影名称、主演、上映时间等）。

由于猫眼电影的页面结构和反爬虫机制可能会发生变化，因此在实际应用中，爬虫程序可能需要根据实际情况进行调整和优化。此外，爬取网站数据时应遵守相关法律法规和网站的使用协议，不得用于非法用途。

需要注意的是，由于猫眼电影Top100的榜单是动态变化的，因此爬取到的信息可能只是某一时刻的快照。如果需要获取最新或实时的榜单信息，爬虫程序需要定期运行并更新数据。

3. 代码实现

以下是完整的代码示例：

import requests
import re# 请求URL
url = 'https://maoyan.com/board/4'# 请求头部，模拟浏览器请求
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):# 使用正则表达式匹配电影信息pattern = re.compile(r'<p class="name"><a href=".*?" title="(.*?)" data-act="boarditem-click" data-val="{movieId:\\\d+}">(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S)items = re.findall(pattern, html)# 将匹配到的信息转换为字典格式for item in items:yield {'电影名称': item[1],'主演': item[2].strip(),'上映时间': item[3]}# 保存数据函数
def save_data():# 打开文件准备写入f = open('maoyan_top100.txt', 'w', encoding='utf-8')# 分页爬取数据，每页10条for i in range(10):# 构建分页URLpage_url = f'https://maoyan.com/board/4?offset={i*10}'# 发送HTTP请求获取页面内容response = requests.get(page_url, headers=headers)# 解析页面内容for item in parse_html(response.text):# 将信息写入文件f.write(str(item) + '\n')# 关闭文件f.close()# 主函数
if __name__ == '__main__':save_data()

4. 代码解释

请求URL和头部：定义了要爬取的猫眼电影Top100的URL和请求头部，模拟浏览器请求以避免被反爬虫机制拦截。
解析页面函数：parse_html函数使用正则表达式匹配页面中的电影信息，包括电影名称、主演和上映时间。正则表达式中的re.S标志表示让.匹配包括换行符在内的所有字符。
保存数据函数：save_data函数负责分页爬取数据，并将解析到的信息写入TXT文件中。通过循环10次，每次构建分页URL并发送请求，然后解析页面内容并写入文件。
主函数：在__main__块中调用save_data函数开始爬取数据。