python实战项目46:selenium爬取百度新闻
- 一、项目简介
- 二、完整代码
一、项目简介
思路是首先使用selenium打开百度新闻页面,然后实现翻页操作,获取每条新闻的标题和链接。接下来的问题是,在遍历标题和链接,对每一个链接发送请求时,发现会弹出百度安全验证,本文的思路是使用selenium处理安全验证问题。虽然速度相对较慢,但是获取的数据是完整的,实测可用。
接下来是以“股市行情”为关键词搜索的百度新闻,获取详情页内容之后,保存的文件的格式:
二、完整代码
完整代码如下:
from selenium import webdriver
from selenium.webdriver.common