爬虫 | 网易新闻热点数据的获取与保存

Hi，大家好，我是半亩花海。本项目是一个简单的网络爬虫，用于从网易新闻的热点新闻列表中提取标题和对应的链接，并将提取到的数据保存到一个 CSV 文件中。

一、技术栈

二、功能说明

三、注意事项

四、代码解析

1. 导入所需库

2. 定义目标URL和请求头

3. 发送HTTP请求获取网页内容

4. 解析网页内容

5. 提取标题和链接

6. 将提取的数据写入 CSV 文件

五、结果展示

六、完整代码

一、技术栈

Python
Requests 库：用于发送 HTTP 请求
lxml 库：用于解析 HTML 文档
CSV 文件操作

二、功能说明

通过发送 HTTP 请求到网易新闻的热点新闻列表页面，获取页面内容。
使用 XPath 解析页面内容，提取新闻标题和对应链接。
将提取的标题和链接写入 CSV 文件，每一行包含一个标题和其对应的链接。

三、注意事项

网络爬虫应遵守网站的 Robots 协议和法律法规，不得对网站造成不必要的负担或侵犯其权益。
在进行大规模爬取时，建议添加适当的延时和错误处理机制，以避免被网站封禁 IP 或其他异常情况。

四、代码解析

1. 导入所需库

import requests
from lxml import etree

2. 定义目标URL和请求头

url = 'https://c.m.163.com/news/hot/newsList'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 ''Safari/537.36 '
}

3. 发送HTTP请求获取网页内容

response = requests.get(url, headers=headers)

4. 解析网页内容

data = etree.HTML(response.text)

5. 提取标题和链接

title_list = data.xpath('//div[@class="title"]/a/text()')
href_list = data.xpath('//div[@class="title"]/a/@href')

6. 将提取的数据写入 CSV 文件

with open('网易.csv', 'a+', encoding='utf-8') as f:for title, href in zip(title_list, href_list):print("Title:", title)  # 标题print("Href:", href)  # 超链接f.write("{},{}\n".format(title, href))

五、结果展示

六、完整代码

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
import requests
from lxml import etreeurl = 'https://c.m.163.com/news/hot/newsList'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 ''Safari/537.36 '
}
response = requests.get(url, headers=headers)data = etree.HTML(response.text)
title_list = data.xpath('//div[@class="title"]/a/text()')
href_list = data.xpath('//div[@class="title"]/a/@href')# 保存数据，指定编码为UTF-8
with open('网易.csv', 'a+', encoding='utf-8') as f:for title, href in zip(title_list, href_list):print("Title:", title)  # 标题print("Href:", href)  # 超链接f.write("{},{}\n".format(title, href))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/309102.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！