爬虫-浏览器自动化

什么是selenium

selenium是浏览器自动化测试框架,原本用于网页测试。但到了爬虫领域,它又成为了爬虫的好帮手。有了 selenium,我们便不再需要判断网页数据加载的方式,只要让 selenium 自动控制浏览器,就像有双无形的手,控制着你的鼠标和键盘,自动地帮你干活。爬取数据?自动抢票?这些当然统统都不在话下。

安装selenium

和安装python的第三方库是一样的

pip install selenium

selenium还需要安装相应的浏览器驱动才能控制浏览器。强烈推荐使用Chorme浏览器。

查看自己电脑上的浏览器版本,依次点击浏览器右上角的 三个点 - 帮助 - 关于 Google Chrome。

将下载的对应版本的的 chromedriver 解压缩,Windows 系统得到 chromedriver.exe,这个就是我们需要的浏览器驱动。我们要将它放到 Python 所在安装目录里。

为了验证驱动是否安装成功,Windows 系统在的 命令行 或者 Anaconda Prompt 中输入 chromedriver 命令,如果出现类似下图所示的内容,就证明驱动已经安装成功了。

打开浏览器

来看下如何用selenium打开Chrom浏览器

# 从 selenium 中导入 webdriver(驱动)
from selenium import webdriver# 选择 Chrome 浏览器并打开
browser = webdriver.Chrome()

获取数据

# 从 selenium 中导入 webdriver(驱动)
from selenium import webdriver# 选择 Chrome 浏览器打开
browser = webdriver.Chrome()
# 打开网页
browser.get('https://wpblog.x0y1.com')
# 关闭浏览器
browser.quit()

browser 是我们实例化的浏览器。我们将网址传给 browser 对象的 get() 方法,即可打开对应的网页。最后调用 quit() 方法将浏览器关闭。

我们的目的是获取数据,接下来让我们用 browser 对象的 page_source 属性来获取网页的源代码。值得注意的是,用 selenium 获取的网页源代码是数据加载完毕后最终的源代码,也就是网页加载后通过 API 获取的数据也在这个源代码中。

因此,我们就不用再区分要爬取的网页是静态网页还是动态网页了,在 selenium 眼里统统都一样。

代码作用
browser  = webdriver.Chrome()打开Chrome浏览器
browser.get("网址")打开网页
browser.page_source获取网页源代码
browser.quit()关闭浏览器

处理数据

我们来看看如何用 selenium 处理数据。我们以获取博客的 h1 元素为例。

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://wpblog.x0y1.com')
h1 = browser.find_element(by='tag name', value='h1')
# 上面的代码也可以写成  
# h1 = browser.find_element('tag name', 'h1')
print(h1.text)
browser.quit()

方法作用
find_element(by = 'tag name', value=...)通过标签查找元素
find element(by = 'class name', value=...) 通过 class 属性名查找元素
find element(by = 'id', value=...) 通过 id 查找元素
find element(by = 'name', value=...)通过 name 属性查找元素
find element(by = 'Link text', value=...) 通过链接文本查找元素
find element(by = 'partial link text', value=...) 通过链接的部分文本查找元素

这些方法找到的元素(返回值)都是 WebElement 对象,它和 BeautifulSoup 里的 Tag 对象一样,也有一个 text 属性,一样也是获取元素里的文本内容。

BeautifulSoup 中通过 select() 方法查找所有被所传入的 CSS 选择器选中的元素。刚才介绍的那些方法都是查找第一个符合条件的元素,接下来我们来看看 selenium 中查找所有符合条件的元素的方法。

这些方法非常简单,直接把 find_element() 方法改成 find_elements() 方法即可:

方法作用
find_elements(by = 'tag name', value=...)通过标签查找元素
find elements(by = 'class name', value=...) 通过 class 属性名查找元素
find elements(by = 'id', value=...) 通过 id 查找元素
find elements(by = 'name', value=...)通过 name 属性查找元素
find elements(by = 'Link text', value=...) 通过链接文本查找元素
find elements(by = 'partial link text', value=...) 通过链接的部分文本查找元素

 比如获取网页源代码中所有的a元素

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://wpblog.x0y1.com')
# 注意下面是 elements
a_tags = browser.find_elements('tag name', 'a')for tag in a_tags:print(tag.text)
browser.quit()

值得一提的是,WebElement 对象也可以调用 selenium 查找元素的方法。这样就和 BeautifulSoup 中的 Tag 对象一样,可以一层一层的查找元素,直到找到为止。

BeautifulSoup 的原理是将网页源代码的字符串形式解析成 BeautifulSoup 对象,然后通过 BeautifulSoup 对象 的属性和方法提取出我们需要的数据。发现没有?BeautifulSoup 只需要一个网页源代码的字符串形式即可。

之前我们都是使用 requests 库获取网页源代码,并通过 text 属性取得其字符串形式。而 selenium 获取网页后的 page_source 属性值正是字符串格式的!

以上面获取博客网页源代码中所有的 a 元素 为例,加上 BeautifulSoup 可以这样写:

from selenium import webdriver
from bs4 import BeautifulSoupbrowser = webdriver.Chrome()
browser.get('https://wpblog.x0y1.com')
# 用 BeautifulSoup 解析网页源代码
soup = BeautifulSoup(browser.page_source, 'html.parser')
a_tags = soup.select('a')
for tag in a_tags:print(tag.text)
browser.quit()

我写了一个两者结合爬取豆瓣读书的代码

import time
from selenium import webdriver
from bs4 import BeautifulSoupbrowser = webdriver.Chrome()
browser.get("https://book.douban.com/top250/")
time.sleep(2)#soup = BeautifulSoup(res.text, 'html.parser')
soup = BeautifulSoup(browser.page_source, 'html.parser')
#print(soup)
# 所有书名所在元素
book_name_tags = soup.select("a")
#print(book_name_tags)
book_names = []
for book_name in book_name_tags:name = book_name.attrsif 'title' in name:book_names.append(name['title'])# 所有书籍信息所在元素
book_info_tags = soup.find_all('p', class_="pl")for i in range(len(book_names)):name = book_names[i]author = book_info_tags[i].text.split('/')[0]publisher = book_info_tags[i].text.split('/')[-3]print("%s / %s / %s" % (name, author, publisher))browser.quit()

 返回的结果如下:

红楼梦 / [清] 曹雪芹 著  /  人民文学出版社 
活着 / 余华  /  作家出版社 
1984 / [英] 乔治·奥威尔  /  北京十月文艺出版社 
哈利·波特 / J.K.罗琳 (J.K.Rowling)  /  人民文学出版社 
三体全集 / 刘慈欣  /  重庆出版社 
百年孤独 / [哥伦比亚] 加西亚·马尔克斯  /  南海出版公司 
飘 / [美国] 玛格丽特·米切尔  /  译林出版社 
动物农场 / [英] 乔治·奥威尔  /  上海译文出版社 
三国演义(全二册) / [明] 罗贯中  /  人民文学出版社 
房思琪的初恋乐园 / 林奕含  /  北京联合出版公司 
福尔摩斯探案全集(上中下) / [英] 阿·柯南道尔  /  1981-8 
白夜行 / [日] 东野圭吾  /  南海出版公司 
小王子 / [法] 圣埃克苏佩里  /  人民文学出版社 
安徒生童话故事集 / (丹麦)安徒生  /  人民文学出版社 
天龙八部 / 金庸  /  生活·读书·新知三联书店 
撒哈拉的故事 / 三毛  /  哈尔滨出版社 
呐喊 / 鲁迅  /  人民文学出版社 
邓小平时代 / 【美】傅高义 (Ezra.F.Vogel)  /  生活·读书·新知三联书店 
悉达多 / [德] 赫尔曼·黑塞  /  天津人民出版社 
杀死一只知更鸟 / [美] 哈珀·李  /  译林出版社 
明朝那些事儿(1-9) / 当年明月  /  中国海关出版社 
失踪的孩子 / [意] 埃莱娜·费兰特  /  人民文学出版社 
新名字的故事 / [意] 埃莱娜·费兰特  /  人民文学出版社 
野草 / 鲁迅  /  人民文学出版社 
沉默的大多数 / 王小波  /  中国青年出版社

 控制浏览器

我们要想登录博客,那必须具备登录的动作,再学习两个方法,分别是:click() 和 send_keys()

方法作用
click()

点击元素

send_keys()模拟按键输入

看下其在代码中的应用

from selenium import webdriver
import timebrowser = webdriver.Chrome()
# 打开博客
browser.get('https://wpblog.x0y1.com')
# 找到登录按钮
login_btn = browser.find_element('link text', '登录')
# 点击登录按钮
login_btn.click()
# 等待 2 秒钟,等页面加载完毕
time.sleep(2)
# 找到用户名输入框
user_login = browser.find_element('id', 'user_login')
# 输入用户名
user_login.send_keys('codetime')
# 找到密码输入框
user_pass = browser.find_element('id', 'user_pass')
# 输入密码
user_pass.send_keys('shanbay520')
# 找到登录按钮
wp_submit = browser.find_element('id', 'wp-submit')
# 点击登录按钮
wp_submit.click()
# 找到 Python 分类文章链接
python_cat = browser.find_element('css selector', 'section#categories-2 ul li a')
# 点击该分类
python_cat.click()
# 找到跳转的页面中的所有文章标题元素
titles = browser.find_elements('css selector', 'h2.entry-title a')# 找到标题元素中内含的链接
links = [i.get_attribute('href') for i in titles]
# 依次打开 links 中的文章链接
for link in links:browser.get(link)# 获取文章正文内容content = browser.find_element('class name', 'entry-content')print(content.text)browser.quit()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/375318.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--堆,堆排序

1.树概念及结构 1.1树的概念 树是一种 非线性 的数据结构,它是由 n ( n>0 )个有限结点组成一个具有层次关系的集合。 把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的 。 有一个 特殊的结…

判断链表中是否有环(力扣141.环形链表)

这道题要用到快慢指针。 先解释一下什么是快慢指针。 快慢指针有两个指针,走得慢的是慢指针,走得快的是快指针。 在这道题,我们规定慢指针一次走一步,快指针一次走2步。 如果该链表有环,快慢指针最终会在环中相遇&a…

通过vagrant与VirtualBox 创建虚拟机

1.下载vagrant与VirtualBox【windows版本案例】 1.1 vagrant 下载地址 【按需下载】 https://developer.hashicorp.com/vagrant/install?product_intentvagranthttps://developer.hashicorp.com/vagrant/install?product_intentvagrant 1.2 VirtualBox 下载地址 【按需下载…

人员定位系统可以用于哪些岗位?作用是什么?

人员定位系统是目前用于保证人身安全或是监管等方面十分适合且高端的技术,对于在环境相对复杂、危险,或是人员较多,管理比较吃力的企业单位来说,这套系统绝对是不可或缺的好帮手,发挥的作用和实用性也是相当高的。 一、…

python-小理与他的画(赛氪OJ)

[题目描述] 小理是个画家,他希望有一天他的画能让心仪的她看到。 只是后来她有了他,他却只有他的画,他望着他的画,默默的发呆。 可惜做题的你,画不出他画的她,所以,我们只好画点简单的画&#x…

接口测试框架基于模板自动生成测试用例!

引言 在接口自动化测试中,生成高质量、易维护的测试用例是一个重要挑战。基于模板自动生成测试用例,可以有效减少手工编写测试用例的工作量,提高测试的效率和准确性。 自动生成测试用例的原理 为了实现测试用例数据和测试用例代码的解耦&a…

谷粒商城学习笔记-18-快速开发-配置测试微服务基本CRUD功能

文章目录 一,product模块整合mybatis-plus1,引入依赖2,product启动类指定mapper所在包3,在配置文件配置数据库连接信息4,在配置文件中配置mapper.xml映射文件信息 二,单元测试1,编写测试代码&am…

手搓前端day1

断断续续的学了些前端,今天开始写写代码,就当是记录一下自己前端的成长过程 效果: 写了点css,实现了简单的前端页面的跳转 文件目录 代码如下: styles.css body{margin: 0;padding: 0;}header{background-color: bl…

Linux系统密码重置

实验环境: Centos 7.9 背景: 找回root用户密码 1、首先,启动Linux系统进入开机界面,在界面中快速点击‘e’进入编辑界面,如图: 2、进入编辑界面会后往下翻找到“Linux16”内容所在的行数,在&q…

暑假第一次作业

第一步:给R1,R2,R3,R4配IP [R1-GigabitEthernet0/0/0]ip address 192.168.1.1 24 [R1-Serial4/0/0]ip address 15.0.0.1 24 [R2-GigabitEthernet0/0/0]ip address 192.168.2.1 24 [R2-Serial4/0/0]ip address 25.0.0.1 24 [R3-GigabitEthernet0/0/0]ip address 192.…

基于复旦微V7 690T FPGA +ARM/海光X86+AI的全国产化数据采集人工智能平台

国产化FPGA:JFM7VX690T80主机接口:PCIe Gen3 x88Gbps/lane光纤通道:前面板4路SFP光纤,后面板1路QSFP光纤2组独立的DDR3 SDRAM 缓存,工作时钟频率800MHz2个FMC接口扩展:每个支持16路GTH,线速率10…

【React Native优质开源项目】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

智能汽车网络安全笔记

汽车五大域 动力底盘、车身控制、智能座舱、智能网联和高级辅助驾驶五大域 国外汽车安全法规标准 汽车网络安全管理体系(CSMS) CSMS指的是管理汽车的网络威胁和风险,并保护车辆免受网络攻击的组织过程和管理系统 安全验证和安全测试 8…

一键运行 ComfyUI SD3!大规模医学 VQA 评测数据集上线,涉及超 20 个人体器官和部位

为了进一步推进 AI4S 的普适化,HyperAI超神经策划了「Meet AI4S」系列直播栏目。第一期直播将于 7 月 17 日 19:00 准时上线! 我们邀请到了浙江大学遥感与地理信息系统博士生丁佳乐,他的分享主题为「神经网络为房价的空间异质性提供新解释」&…

C++——类和对象(上)

文章目录 一、类的定义1.类定义格式2.访问限定符3.类域 二、实例化1.实例化概念2.对象⼤⼩ 三、 this指针 一、类的定义 1.类定义格式 与定义结构体类似 class ST {//成员变量int val;//成员函数void print(){cout << val << endl;}};class为定义类的关键字&…

【深度学习基础】环境搭建 linux系统下安装pytorch

目录 一、anaconda 安装二、创建pytorch1. 创建pytorch环境&#xff1a;2. 激活环境3. 下载安装pytorch包4. 检查是否安装成功 一、anaconda 安装 具体的安装说明可以参考我的另外一篇文章【环境搭建】Linux报错bash: conda: command not found… 二、创建pytorch 1. 创建py…

(8)揭示Python编程精髓:深潜继承与多态的奇幻之旅

目录 1. 命名空间与作用域1.1 命名空间概述1.2 作用域1.2.1 局部作用域1.2.2 全局作用域1.2.3 修改全局变量1.2.4 嵌套作用域 2. 继承3. 多态&#xff08;Polymorphism&#xff09; 1. 命名空间与作用域 1.1 命名空间概述 命名空间是一个从名字到对象的映射&#xff0c;它在P…

Data-Juicer:阿里巴巴荣誉出品的大模型数据清洗框架

Diffusion Models专栏文章汇总:入门与实战 前言:如何优雅地进行大规模数据清洗是一门艺术,特别对于大模型,数据的质量是决定模型成功最关键的因素之一。阿里巴巴最近开源了一项专门针对大语言模型和视频生成大模型的数据清洗框架,值得关注! 目录 主要特点 数据处理 分…

通过 tomcat 让手机访问到电脑写的 html 网页

之前实现的 html 小项目只能在自己的电脑上展示&#xff0c;如果要在其他电脑或者在手机上就看不到网页了 想要在手机上访问自己写的网页&#xff0c;我们可以借助 tomcat 首先我们可以从官网下载 tomcat 官网链接&#xff1a;apache官网 我们拉到最底部&#xff0c;找到 a…

【观成科技】Websocket协议代理隧道加密流量分析与检测

Websocket协议代理隧道加密流量简介 攻防场景下&#xff0c;Websocket协议常被用于代理隧道的搭建&#xff0c;攻击者企图通过Websocket协议来绕过网络限制&#xff0c;搭建一个低延迟、双向实时数据传输的隧道。当前&#xff0c;主流的支持Websocket通信代理的工具有&#xf…