Python爬虫基础之Selenium详解

目录

  • 1. Selenium简介
  • 2. 为什么使用Selenium?
  • 3. Selenium的安装
  • 4. Selenium的使用
  • 5. Selenium的元素定位
  • 6. Selenium的交互
  • 7. Chrome handless
  • 参考文献

原文地址:https://program-park.top/2023/10/16/reptile_3/

本文章中所有内容仅供学习交流使用,不用于其他任何目的,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关。

1. Selenium简介

  Selenium 是一个用于 Web 应用程序测试的工具。最初是为网站自动化测试而开发的,可以直接运行在浏览器上,支持的浏览器包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 和 Edge 等。
  爬虫中使用它是为了解决 requests 无法直接执行 JavaScript 代码的问题。Selenium 本质上是通过驱动浏览器,彻底模拟浏览器的操作,好比跳转、输入、点击、下拉等,来拿到网页渲染之后的结果。Selenium 是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作。

2. 为什么使用Selenium?

  Selenium 能模拟浏览器功能自动执行网页中的 JavaScript 代码,实现动态加载。

3. Selenium的安装

  谷歌浏览器驱动下载地址:https://registry.npmmirror.com/binary.html?path=chromedriver/
  查看自己谷歌浏览器的版本,我这里的版本是正式版本116.0.5845.188,驱动下载地址最新的只有114.0.5735.90,所以只能去官网的测试页面下载118.0.5993.70版本的驱动(https://googlechromelabs.github.io/chrome-for-testing/#stable,版本向下兼容),然后把下载的压缩包解压,将exe文件放入 PyCharm 项目的根目录下。
  之后执行pip install selenium命令,安装 selenium 库。

4. Selenium的使用

from selenium import webdriver# 创建浏览器操作对象
path = 'chromedriver.exe'
browser= webdriver.Chrome(path)# 访问网站
url = 'https://www.baidu.com'browser.get(url)
# content = browser.page_source
# print(content)

  需要注意的是,如果你的 selenium 是4.11.2以上的版本,不需要设置driver.exe的路径,selenium 可以自己处理浏览器的驱动程序,因此代码直接改为brower = webdriver.Chrome()即可。
  运行代码,得到下面的效果:

5. Selenium的元素定位

  自动化工具要做的就是模拟鼠标和键盘来操作点击、输入等等元素,但是操作这些元素的前提是找到它们,WebDriver 提供了很多元素定位的方法:

  • 根据标签 id 获取元素:
    from selenium import webdriver
    from selenium.webdriver.common.by import By# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser= webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)button = browser.find_element(By.ID, 'su')
    # button = browser.find_elements(By.ID, 'su')
    print(button)
    
  • 根据标签 name 属性的值获取元素:
    button = browser.find_element(By.NAME, 'wd')
    print(button)
    
  • 根据 Xpath 语句获取元素;
    button = browser.find_element(By.XPATH, '//input[@id="su"]')
    print(button)
    
  • 根据标签名获取元素:
    button = browser.find_elements(By.TAG_NAME, 'input')
    print(button)
    
  • 根据 bs4 语法获取元素:
    button = browser.find_elements(By.CSS_SELECTOR, '#su')
    print(button)
    
  • 根据标签的文本获取元素(精确定位):
    button = browser.find_elements(By.LINK_TEXT, '地图')
    print(button)
    
  • 根据标签的文本获取元素(模糊定位):
    button = browser.find_elements(By.PARTIAL_LINK_TEXT, '地')
    print(button)
    
  • 根据 class 属性获取元素:
    button = browser.find_element(By.CLASS_NAME, 'wrapper_new')
    print(button)
    

  当我们定位到元素之后,自然就要考虑如何获取到元素的各种信息,selenium 给我们提供了获取元素不同信息的方法:

  • 获取元素属性:
    from selenium import webdriver
    from selenium.webdriver.common.by import By# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser= webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)button = browser.find_element(By.ID, 'su')
    print(input.get_attribute('class'))
    
  • 获取元素标签名:
    input = browser.find_element(By.ID, 'su')
    print(input.tag_name)
    
  • 获取元素文本:
    input = browser.find_element(By.ID, 'su')
    print(input.text)
    
  • 获取元素位置:
    input = browser.find_element(By.ID, 'su')
    print(input.location)
    
  • 获取元素大小:
    input = browser.find_element(By.ID, 'su')
    print(input.size)
    

6. Selenium的交互

  页面交互指的是我们平时在浏览器上的各种操作,比如输入文本、点击链接、回车、下拉框等,下面就演示 selenium 是如何进行页面交互的。

  • 输入文本:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 关闭浏览器
    browser.close()
    
  • 点击:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 定位百度一下的按钮
    button = browser.find_element(By.ID, 'su')
    # 点击按钮
    button.click()
    time.sleep(2)# 关闭浏览器
    browser.close()
    
  • 清除文本:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 清除selenium
    input.clear()
    time.sleep(2)# 关闭浏览器
    browser.close()
    
  • 回车确认:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 回车查询
    input.submit()
    time.sleep(2)# 关闭浏览器
    browser.close()
    
  • 运行 JavaScript:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 回车查询
    input.submit()
    time.sleep(2)# js代码
    js_bottom = 'document.documentElement.scrollTop=100000'
    # 下拉进度条,页面滑动
    browser.execute_script(js_bottom)
    time.sleep(2)# 关闭浏览器
    browser.close()
    
  • 前进后退
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time# 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()# 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)# 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)# 回车查询
    input.submit()
    time.sleep(2)# js代码
    js_bottom = 'document.documentElement.scrollTop=100000'
    # 页面滑动
    browser.execute_script(js_bottom)
    time.sleep(2)# 定位下一页的按钮
    next = browser.find_element(By.XPATH, '//a[@class="n"]')
    # 点击下一页
    next.click()
    time.sleep(2)# 返回到上一页面
    browser.back()
    time.sleep(2)# 前进到下一页
    browser.forward()
    time.sleep(2)# 关闭浏览器
    browser.close()
    

7. Chrome handless

  在上面的测试过程中可以发现,虽然 selenium 简便好用,但是它的运行速度很慢,这是因为 selenium 是有界面的,需要执行前端 css 和 js 的渲染。那么下面就介绍一个无界面的浏览器,Chrome-handless 模式,运行效率要比真实的浏览器快很多,在 selenium 的基础上,支持页面元素查找、js 执行等,代码和 selenium 一致。
  使用前提:

  • Chrome
    • Unix\Linux chrome >= 59
    • Windows chrome >= 60
  • Python >= 3.6
  • Selenium >= 3.4.*
from selenium import webdriverdef share_browser():# headless自带配置,不需要再做额外的修改from selenium.webdriver.chrome.options import Options# 初始化chrome_options = Options()chrome_options.add_argument('‐‐headless')chrome_options.add_argument('‐‐disable‐gpu')# 谷歌浏览器的安装路径path = r'C:\Users\\AppData\Local\Google\Chrome\Application\chrome.exe'chrome_options.binary_location = pathbrowser = webdriver.Chrome(options=chrome_options)return browserbrowser = share_browser()
url = 'https://www.baidu.com'
browser.get(url)# 本地保存照片
browser.save_screenshot('baidu.png')

参考文献

  【1】http://www.noobyard.com/article/p-boitcibx-g.html
  【2】https://www.jb51.net/article/149145.htm
  【3】https://zhuanlan.zhihu.com/p/462460461
  【4】https://blog.csdn.net/weixin_67553250/article/details/127555724
  【5】https://www.cnblogs.com/Summer-skr–blog/p/11491078.html
  【6】https://www.bilibili.com/video/BV1Db4y1m7Ho?p=77

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/163562.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode刷题(数据结构与算法)】:合并两个有序链表

将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的 **思路:定义一个头尾指针置为NULL while循环依次比较两个链表的值的大小 遍历链表 比较完数值大小过后连接到tail的尾部 然后各自的链表的节点的next指针指向下一…

数字秒表VHDL实验箱精度毫秒可回看,视频/代码

名称:数字秒表VHDL精度毫秒可回看 软件:Quartus 语言:VHDL 代码功能: 数字秒表的VHDL设计,可以显示秒和毫秒。可以启动、停止、复位。要求可以存储6组时间,可以回看存储的时间 本资源内含2个工程文件&am…

【AIGC核心技术剖析】Hotshot-XL 一种 AI 文本转 GIF 模型(论文 + 代码:经过训练可与Stable Diffusion XL一起使用)

Hotshot-XL 是一种 AI 文本转 GIF 模型,经过训练可与Stable Diffusion XL一起使用。 Hotshot-XL 可以使用任何经过微调的 SDXL 模型生成 GIF。这意味着两件事: 您将能够使用您可能想要使用的任何现有或新微调的 SDXL 模型制作 GIF。 如果您想制作个性化主题的 GIF,您可以…

【AIGC核心技术剖析】改进视频修复的传播和变压器(动态滤除环境中的物体)

基于流的传播和时空变压器是视频修复(VI)中的两种主流机制。尽管这些组件有效,但它们仍然受到一些影响其性能的限制。以前基于传播的方法在图像域或特征域中单独执行。与学习隔离的全局图像传播可能会由于光流不准确而导致空间错位。此外&…

2023_Spark_实验十八:安装FinalShell

下载安装包 链接:https://pan.baidu.com/s/14cOJDcezzuwUYowPsOA-sg?pwd6htc 提取码:6htc 下载文件名称:FinalShell.zip 二、安装 三、启动FinalShell 四、连接远程 linux 服务器 先确保linux系统已经开启,不然连接不上 左边…

华为eNSP配置专题-VRRP的配置

文章目录 华为eNSP配置专题-VRRP的配置0、参考文档1、前置环境1.1、宿主机1.2、eNSP模拟器 2、基本环境搭建2.1、基本终端构成和连接 2.VRRP的配置2.1、PC1的配置2.2、接入交换机acsw的配置2.3、核心交换机coresw1的配置2.4、核心交换机coresw2的配置2.5、配置VRRP2.6、配置出口…

Windows10 Docker 安装教程

Docker Desktop是什么? Docker Desktop是适用于Windows的Docker桌面,是Docker设计用于在Windows 10上运行。它是一个本地 Windows 应用程序,为构建、交付和运行dockerized应用程序提供易于使用的开发环境。Docker Desktop for Windows 使用 …

解决方案|智能制造升级,汽车行业借力法大大电子签进入“快车道”

《“十四五”智能制造发展规划》明确智能制造是制造强国建设的主攻方向,其发展程度直接关乎我国制造业质量水平。发展智能制造对于巩固实体经济根基、建成现代化产业体系、实现新型工业化具有重要作用。 规划明确指出要深入实施智能制造工程,着力提升创…

HBase基础

HBase基础 参考 https://www.bilibili.com/video/BV1bC4y1b7Q1 HBase 简介 定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库(k-v)。 数据量越大,优势越明显;数据量小,比较消耗内存,耗资源;数据量大…

【数之道 05】走进神经网络模型、机器学习的世界

神经网络 神经网络(ANN)神经网络基础激活函数 神经网络如何通过训练提高预测准确度逆向参数调整法 (BackPropagation)梯度下降法链式法则增加一层 b站视频连接 神经网络(ANN) 最简单的例子,视…

vue重修【005】自定义路由、插槽

文章目录 版权声明自定义指令指令初识指令中配置项指令语法指令值v-loading指令的封装分析实现 插槽默认插槽插槽默认值具名插槽作用域插槽使用步骤完整案例 版权声明 本博客的内容基于我个人学习黑马程序员课程的学习笔记整理而成。我特此声明,所有版权属于黑马程…

【系统与工具】系统环境——VMware安装系统

文章目录 0.1 安装VMware0.2 下载ubuntu镜像0.3 创建系统实例0.4 安装ubuntu0.5 实例配置项0.5.1 安装VMware tools0.5.2 修改静态IP0.5.3 ssh连接 0.6 克隆0.6.1 克隆实例生成MAC地址 0.6.2 修改静态ip0.6.3 修改主机密码名称 参考:https://blog.csdn.net/m0_51913…

Lua快速入门教程

文章目录 1、Linux安装Lua2、语法练习2.1、变量2.2、循环2.3、函数2.4、数组2.5、迭代器2.6、Table操作2.7、Lua 模块与包2.8、加载机制2.9、Lua 元表(Metatable) 3、Lua 协同程序(coroutine)4、文件IO操作4.1、简单模式4.2、完全模式 5、错误处理 内容来源菜鸟教程&#xff0c…

GO 语言的方法??

GO 中的方法是什么? 前面我们有分享到 GO 语言的函数,他是一等公民,那么 GO 语言中的方法和函数有什么区别呢? GO 语言中的方法实际上和函数是类似的,只不过在函数的基础上多了一个参数,这个参数在 GO 语…

AAOS CarMediaService 服务框架

文章目录 前言MediaSessionCarMediaService作用是什么?提供了哪些接口?如何使用?CarMediaService的实现总结 前言 CarMediaService 是AAOS中统一管理媒体播放控制、信息显示和用户交互等功能的服务。这一服务依赖于android MediaSession框架…

Redis入门到实战(四、原理篇)RESP协议

目录 2、Redis内存回收-过期key处理3、Redis内存回收-内存淘汰策略 Redis是一个CS架构的软件,通信一般分两步(不包括pipeline和PubSub): 客户端(client)向服务端(server)发送一条命令…

linux常见命令-文件目录类

9.4 文件目录类 (1)pwd 指令:显示当前工作目录的绝对路径 (2)Is指令:查看当前目录的所有内容信息 基本语法: ls [选项,可选多个] [目录或是文件] 常用选项:-a:显示当前目录所有的文件和目录,包括隐藏的…

ES6 Symbol 数据结构

1. Symbol概念以及引入原因 ES6 引入了的一种新的原始数据类型Symbol,表示独一无二的值。它是 JavaScript 语言的第七种数据类型,前六种是:undefined、null、布尔值(Boolean)、字符串(String)、…

Stanford CS224N - word2vec

最近在听Stanford放出来的Stanford CS224N NLP with Deep Learning这门课,弥补一下之前nlp这块基础知识的一些不清楚的地方,顺便巩固一下基础知识😁 关于word2vec: 1.为什么要把单词表示成向量 一开始人们造了一个类似于词典表…

Squeeze-and-Attention Networks for Semantic Segmentation

0.摘要 最近,将注意力机制整合到分割网络中可以通过更重视提供更多信息的特征来提高它们的表征能力。然而,这些注意力机制忽视了语义分割的一个隐含子任务,并受到卷积核的网格结构的限制。在本文中,我们提出了一种新颖的squeeze-a…