Python 网络数据采集(四):Selenium 自动化

Python 网络数据采集(四):Selenium 自动化

      • 前言
      • 一、背景知识
        • Selenium 4
        • Selenium WebDriver
      • 二、Selenium WebDriver 的安装与配置
      • 2.1 下载 Chrome 浏览器的驱动程序
      • 2.2 配置环境变量
      • 三、Python 安装 Selenium
      • 四、页面元素定位
        • 4.1 选择浏览器开始测试
        • 4.2 查找页面元素
          • 4.2.1 浏览器查找元素
          • 4.2.2 按 XPath 查找
          • 4.2.3 显示等待 WebDriverWait
      • 五、SOHU 邮箱自动化登录
      • 六、结尾
      • 七、参考

作者:高玉涵
时间:2024.1.11 08:30
博客:blog.csdn.net/cg_i
环境:Windows 10 专业版 22H2、Python 3.10.4、selenium 4.10.0

前言

在 WEB 功能测试领域,Selenium 是一个免费、开源、跨平台的重要工具,它可以对 Chrome、Firefox、Safari 等浏览器进行测试,支持多种语言(如 Python、Java、C#、Ruby、JavaScript 等),它足以胜任一切 WEB 功能测试任务。优点:它可以模拟浏览器,打开你需要爬取的网站,可以大概率避免被封。因为我们用 Python 的 requets 库时,有些反爬严格的网站,可以识别出你当前访问是机器,导致爬取数据失败。缺点:速度慢。因为 Selenium 必须要打开浏览器,然后模拟点击网页,这个过程和你打开浏览器访问网站一样的速度。

然而,工具本质上只是工具,并不能真正发挥价值。要让 Selenium 在爬取数据中发挥真正功能,不仅需要有强大工具,还需有有效的策略。下面我会给出一个虚构的需求,通过简单举例自动化登录 SOHU 邮箱,浅尝辄止的介绍如何使用 Selenium,方便让你了解其价值,希望大家能从中有所收获。当然,限于本人水平有限,文中举例难免会有疏漏或不当之处,敬请广大读者及同行批评指正,谢谢各位!

一、背景知识

Selenium 4

Selenium 是一系列基于 Web 的自动化工具。它提供了一系统操作函数,用于支持 Web 自动化。这些函数非常灵活,能够通过多种方式定位界面元素、操作元素并获取元素的各项信息。Selenium 2 开始引入了 WebDriver,由浏览器厂商基于一定规范提供原生级别的操作实现,就相当于用户在真实操作浏览器。时至今日,Selenium 4,已经非常成熟,本文示例采用此版本。

Selenium WebDriver

是一种简洁而紧密的编程接口,可以通过多种编程语言(例如 Python、Java、C#、Ruby等)来调用 WebDriver。支持全部主流浏览器:例如 Firefox、Safari、Edge、Chrome 及 Internet Explorer 等,在这些浏览器中的自动化操作等同于按真实用户的方式进行交互。WebDriver 标准是 W3C 标准:主要的浏览器厂商(Mozilla、Google、Apple、Microsoft等)都支持 WebDriver 标准,将据此优化浏览器及开发控制代码(可将控制代码称为驱动程序,各个浏览器拥有自身的 WebDriver 驱动程序)提供更统一的原生操作支持,使自动化脚本更加稳定。

二、Selenium WebDriver 的安装与配置

浏览器的安装很简单,这里不做过多说明,主要介绍驱动程序和语言(Python)绑定的安装与配置。对不同的浏览器,需要下载浏览器驱动程序来支持运行。这里主要以 Goolge Chrome 浏览器举例。

2.1 下载 Chrome 浏览器的驱动程序

在 Chrome 浏览器中,首先在“帮助 ”->”关于 Google Chrome“菜单中查看浏览器版本,在本例中版本号为 120.0.6099.201,如图 2-1 所示。

在这里插入图片描述

图 2-1 查看 Chrome 版本

然后访问 Chrome 浏览器的驱动程序下载页面 CNPM Binaries Mirror (npmmirror.com),找到对应版本的文件夹,如图 2-2 所示。

在这里插入图片描述

图 2-2 找到对应版本的文件夹

进入对应版本的文件夹,根据操作系统下载对应的驱动程序即可,如图 2-3 所示。

在这里插入图片描述

图 2-3 该版本下不同操作系统的 Chrome 驱动程序

2.2 配置环境变量

驱动下载完成后,建议将驱动程序的 exe 文件放在同一个文件夹下进行管理,可按图 2-4 所示。本例中存放路径为 C:\Drivers\chrome

在这里插入图片描述

图 2-4 存放驱动路径

然后还需要将文件夹配置到环境变量 Path 当中,这样 Selenium 在运行时,就可以通过环境变量 Path 找到驱动程序所在位置。

在”设置“,选择”关于“,找到单击”高级系统设置“,在弹出的”系统属性“对话框中单击”环境变量“按键。在弹出的”环境变量“对话框中,在”系统变量“选项组中,选择 Path 变量,将 C:\Drivers\chrome 添加到环境变量 Path 当中,如图 2-5 所示。

在这里插入图片描述

图 2-5 配置环境变量 Path

浏览器驱动程序的配置到此完成。

三、Python 安装 Selenium

在命令行窗口中输入以下命令,即可完成针对 Python 的 Selenium 库的安装。

pip install selenium

安装完成后,可以通过以个命令查看安装的版本。

pip show seleniumName: selenium
Version: 4.10.0
Summary:
Home-page: https://www.selenium.dev
Author:
Author-email:
License: Apache 2.0
Location: c:\python310\lib\site-packages
Requires: certifi, trio, trio-websocket, urllib3
Required-by:

语言绑定安装完成后,就可以开始编写 Selenium 的相关代码了。

四、页面元素定位

4.1 选择浏览器开始测试

在此之前,我们已经配置了浏览器的驱动程序,因此可以在代码中声明 WebDriver 实例,来运行浏览器。

from selenium import webdriverdriver = webdriver.Chrome()

执行以上代码,将打开 Chrome 浏览器。

4.2 查找页面元素
4.2.1 浏览器查找元素

在进行操作之前,必须要找到相应的元素。如何才能找到这些元素?首先打开浏览器,地址栏输入 https://mail.sohu.com/fe/#/login 登录搜狐邮箱页面。 如图 4-1 所示。

在这里插入图片描述

图 4-1 SOHU 邮箱登录界面 Path

登录时,需要提供邮箱和密码。可以通过查找“请输入您的邮箱”、”请输入您的密码“来定位元素 HTML 标签位置。按下 F12 打开”开发人员工具”选中“元素”按 Ctrl+F 在查找输入框中输入“请输入您的邮箱”,如图 4-2 所示。

在这里插入图片描述

图 4-2 浏览器查找元素

重复上述方法依次找到登录邮箱用到的元素。

4.2.2 按 XPath 查找

XPath 的全称为 XML 路径语言(XML Path Language),它是一种用来确定目标对象在 XML 文档中的位置的语言。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的计算机文件系统中看到的表达式非常相似。由于 HTML 和 XML 的结构非常相似,因此 XPath 可以用于 HTML 节点的选取。通过 XPath 表达式,几乎可以选取任何相要的节点。

在 Selenium 中,可以通过以下函数查找匹配 XPath 表达式的首个元素。

find_element(By.XPATH, "//*[@placeholder='请输入您的邮箱']")

注:基本的 XPath 语法类似于在一个文件系统中定位文件,如果路径以斜线(/)开始,那么该路径就表示到一个元素的绝对路径。相对路径定位以斜线(//)开头,表示选择文档中所有满足双斜线(//)后面的规则的元素(无论层级关系)。属性定位通过前缀 @ 来指定属性名称,然后指定期望的属性值来进行定位。

4.2.3 显示等待 WebDriverWait

在查找元素时,需要等待页面全部元素加载完成,如因某些原因造成页面无法加载或超时,就会造成失败。当然你可以通过 time.sleep(5) 设定强制等待秒数,直到页面加载完成后再查找元素。即使想找的元素已经出来了,它还是会继续等待,这往往会影响程序执行效率。

WebDriverWait(driver,timeout,poll_frequency=0.5,ignored_exceptions=None)

需要通过from selenium.webdriver.support.wait import WebDriverWait 导入模块

  • driver:浏览器驱动
  • timeout:最长超时时间,默认以秒为单位
  • poll_frequency:检测的间隔步长,默认为 0.5s
  • ignored_exceptions:超时后的抛出的异常信息,默认抛出 NoSuchElementExeception 异常。

与until()或者until_not()方法结合使用

WebDriverWait(driver,10).until(method,message="")
调用该方法提供的驱动程序作为参数,直到返回值为 TrueWebDriverWait(driver,10).until_not(method,message="")
调用该方法提供的驱动程序作为参数,直到返回值为 False

在设置时间(10s)内,等待后面的条件发生。如果超过设置时间未发生,则抛出异常。在等待期间,每隔一定时间(默认0.5秒),调用 until 或 until_not 里的方法,直到它返回 True 或 False。

五、SOHU 邮箱自动化登录

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWaiturl = 'https://mail.sohu.com/fe/?spm=smpc.home.top-logo.3.1701571180664h7IM3dP_1467#/login'
username = 'test@sohu.com'
password = 'test'driver = webdriver.Chrome()try:driver.get(url)mail_input = WebDriverWait(driver, 10).until(lambda d: d.find_element(By.XPATH, "//*[@placeholder='请输入您的邮箱']"))mail_input.clear()mail_input.send_keys(username)mail_pwd = WebDriverWait(driver, 10).until(lambda d: d.find_element(By.XPATH, "//*[@placeholder='请输入您的密码']"))mail_pwd.clear()mail_pwd.send_keys(password)# 登录按钮loginbtn = WebDriverWait(driver, 10).until(lambda d: d.find_element(By.XPATH, "//*[@class='btn-login fontFamily']"))loginbtn.submit() # 登录
except Exception as e:print(e)

六、结尾

通过上述极简的例子,介绍如何让自动化测试取得成功,然而如何完善和丰富其功能,其中涉及较多技术和经验。限于篇幅这里就不展开了,建议读者可搜寻相关资料阅读,还要结合实际的项目多加思考。

七、参考

  • 入门指南 | Selenium

  • XPath 教程 | 菜鸟教程 (runoob.com)

  • Python 采集网络 数据(一):BeautifulSoup

  • Python 网络数据采集(二):抓取所有网页

  • Python 网络数据采集(三):采集整个网站

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/236165.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于JAVA的数据可视化的智慧河南大屏 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 数据模块 A4.2 数据模块 B4.3 数据模块 C4.4 数据模块 D4.5 数据模块 E 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的数据可视化的智慧河南大屏,包含了GDP、…

MT8766安卓核心板/开发板_MTK联发科4G安卓手机主板方案定制开发

MT8766采用台积电 12 nm FinFET 制程工艺,4*A53架构,Android 9.0操作系统,搭载2.0GHz 的 Arm NEON 引擎。提供了支持最新 OpenOS 及其要求苛刻的应用程序所需的处理能力,专为具有全球蜂窝连接的高移动性和功能强大的平板设备而设计…

如何实现IOS APP被杀掉后依然可以接收到个推消息通知

背景 项目已经集成了个推SDK,但是在离线场景下无法收到推送消息,离线场景主要分2种情况,一种是用户将APP切换到了后台,一种是用户将APP杀掉了。 针对场景一:我们可以将APP支持后台运行,比如项目中使用到了…

【STM32单片机】步进电机控制系统设计

文章目录 一、主要功能二、软件设计三、实验现象联系作者 一、主要功能 本项目使用STM32F103C8T6单片机控制器,使用ULN2003电机模块、IIC OLED模块、按键模块等。 主要功能: 系统运行后,OLED显示电机当前运行档位、方向、状态。 可通过按键…

【Python从入门到进阶】46、58同城Scrapy项目案例介绍

接上篇《45、Scrapy框架核心组件介绍》 上一篇我们学习了Scrapy框架的核心组件的使用。本篇我们进入实战第一篇,以58同城的Scrapy项目案例,结合实际再次巩固一下项目结构以及代码逻辑的用法。 一、案例网站介绍 58同城是一个生活服务类平台&#xff0c…

13个自媒体文库平台(附通道链接)

划到最后“阅读原文” ——进入官网 Hi,我是胡猛夫,每天分享实用运营工具! 更多内容,更多资源,欢迎交流! 公 号 | 微视角文化 》》精彩推荐 >>微视角文化知识库:移动的自媒体运营百科全…

rpb/rpc文件说明与matlab读取

什么是rpb/rpc文件? rpb文件是用来存储用于遥感数据几何校正的RPC(Rational Polynomial Coefficients )模型的文件。类似的还有RPC文件,rpb与rpc文件只是格式不同,但包含的信息一致。其用于从图像坐标转换到地理坐标&a…

Lazada运费策略是什么?Lazada运费模板怎么设置?-站斧浏览器

Lazada运费策略是什么? Lazada平台鼓励商家采用合理、透明的运费策略。以下是一些建议的运费策略: 地区差异化:根据不同地区的物流成本和消费者习惯,为不同地区设置不同的运费或优惠政策。 重量/体积计费:采用合理的…

ChatGPT:人工智能与人类交流的桥梁

在人工智能的浪潮中,ChatGPT以其独特的交流能力成为了一个亮点。作为一个基于强大的GPT-4模型的聊天机器人,ChatGPT不仅仅是技术的展示,它更是人工智能与人类交流的桥梁。 人工智能的语言理解革命 ChatGPT的出现标志着人工智能在语言理解和…

蓝桥杯练习题(七)

📑前言 本文主要是【算法】——蓝桥杯练习题(七)的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 …

基于Java SSM框架实现医院管理系统项目【项目源码】

基于java的SSM框架实现医院管理系统演示 SSM框架 当今流行的“SSM组合框架”是Spring SpringMVC MyBatis的缩写,受到很多的追捧,“组合SSM框架”是强强联手、各司其职、协调互补的团队精神。web项目的框架,通常更简单的数据源。Spring属于…

什么是云服务器ECS - 云服务器 ECS - 阿里云

阿里云服务器ECS英文全程Elastic Compute Service,云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务,阿里云提供多种云服务器ECS实例规格,如经济型e实例、通用算力型u1、ECS计算型c7、通用型g7、GPU实例等,阿里云百科aliyunbai…

从“精益思想“看机器人的开发与应用:一场科技与效率的完美融合

在科技飞速发展的今天,机器人已经深入到我们的生活和工作之中,成为了提高效率、提升质量的重要工具。然而,如何让机器人的开发和利用更有效率、更精细,这是摆在我们面前的一道难题。此时,"精益思想"的出现&a…

行为型设计模式——观察者模式

观察者模式 观察者模式也不难,这个模式用大白话将就是若干个观察者类都订阅一个发布类(被观察者类),当发布者需要发表消息的时候,观察者都能够收到消息。**定义:**又被称为发布-订阅(Publish/S…

ssm基于Javaweb的物流信息管理系统的设计与实现论文

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统物流信息管理难度大,容错率低,管理…

TOP 10 屏幕录制软件工具,可帮您轻松录制视频!

随着越来越多的人远程工作和学习,对可靠、高效的屏幕录制工具的需求变得越来越重要。屏幕录制已成为电子学习、游戏和视频创作的重要组成部分。然而,有这么多可用的屏幕录制工具,选择合适的工具可能具有挑战性。为了帮助您节省搜索时间和精力…

安达发|APS智能排产系统之换产矩阵

在制造业中,生产计划和调度是至关重要的环节。为了提高生产效率、降低成本并满足客户需求,企业需要采用先进的生产管理系统。APS(高级计划与排产)智能排产系统正是为此而生的一种解决方案。它通过数学模型和算法,实现了…

软件测试|Docker exec命令详细使用指南

简介 Docker exec命令是Docker提供的一个强大工具,用于在正在运行的容器中执行命令。本文将详细介绍Docker exec命令的用法和示例,帮助大家更好地理解和使用这个命令。 Docker是一种流行的容器化平台,允许我们在容器中运行应用程序。有时候…

k8s-----存储卷(数据卷)

容器内的目录和宿主机的目录进行挂载。 容器的生命状态是短站的,delete删除,k8s用控制创建的pod,delete相当于重启,容器的状态也会回复到初始状态。 一旦回到初始状态,所有的后天编辑的文件都会消失。 容器和节点之间创…

vue的mvvm模式

1.mvvm优点: 低耦合:视图(View)可以独立于Model变化和修改,一个ViewModel可以绑定到不同的View上,当View变化的时候Model可以不变,当Model变化的时候,View也可以不变。 可复用&…