Java使用Selenium实现自动化测试以及全功能爬虫

前言

工作中需要抓取一下某音频网站的音频,我就用了两个小时学习弄了一下,竟然弄出来,这里分享记录一下。
springboot项目 + Selenium


Java使用Selenium实现自动化测试以及全功能爬虫

  • 前言
  • 1 自动化测试
  • 2 java中集成Selenium
  • 3 添加浏览器驱动
  • 4 驱动的路径
  • 5 使用
  • 6 效果图
  • 7 完整的项目案例

1 自动化测试

提到Selenium,便离不开自动化测试。
自动化测试,就是把手工进行的测试过程,转变成机器自动执行的测试过程。
自动化测试有如下优点

  • 对程序的回归测试更方便。 这可能是自动化测试最主要的任务,特别是在程序修改比较频繁时,效果是非常明显的。
  • 可以运行更多更繁琐的测试。
  • 可以执行一些手工测试困难或不可能进行的测试。
  • 更好地利用资源。
  • 测试具有一致性和可重复性。
  • 测试的复用性。
  • 增加软件信任度。

2 java中集成Selenium

maven添加依赖

在java中使用Selenium很简单,你只需要添加如下依赖:


<dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>3.141.59</version>
</dependency>
<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>23.0</version>
</dependency>
<dependency><groupId>com.google.code.gson</groupId><artifactId>gson</artifactId><version>2.8.2</version>
</dependency>

3 添加浏览器驱动

我在这里遇到了问题,不知道为什么我访问网上给出的谷歌浏览器的驱动总是跳到0.0.0.0

可能是翻”强“软件的原因,我这里附上我可以使用的一个地址吧,如果你使用其它浏览器,就去找一下相关驱动,或者下载一个谷歌浏览器,再来下载相对应的驱动。

https://chromedriver.chromium.org/downloads

如果在下面这个页面没有找到自己对应的版本驱动,就点击我图片上框起来的部分看看。
在这里插入图片描述
点击之后是这个页面

在这里插入图片描述
我的版本是122.0.6261.129
在这里插入图片描述
但是我写博客这时只有122.0.6261.128的,所以我就下载了这个 128的。

在这里插入图片描述
别下载错了 记得看是chromedriver不是chrome(我就下错了。。。)

4 驱动的路径

我们把下载的压缩包解压,找到“chromedriver.exe”,并把它放置到与浏览器“Chrome.exe”相同的文件夹下。

在这里插入图片描述

5 使用

项目中新建一个java文件

在java中使用不同浏览器: 首先配置驱动属性,指定驱动文件路径

System.setProperty("webdriver.chrome.driver", "Q:\\chromedriver.exe");

获取WebDriver并打开一个新的浏览器窗口

WebDriver driver = new ChromeDriver();    //Chrome浏览器
WebDriver driver = new FirefoxDriver();   //Firefox浏览器
WebDriver driver = new EdgeDriver();      //Edge浏览器
WebDriver driver = new InternetExplorerDriver();  // Internet Explorer浏览器
WebDriver driver = new OperaDriver();     //Opera浏览器
WebDriver driver = new PhantomJSDriver();   //PhantomJS

6 效果图

在这里插入图片描述

7 完整的项目案例


import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;public class downPixabayMusic {public static void main(String[] args) {
//这里修改一下路径System.setProperty("webdriver.chrome.driver", "C:\\Program Files\\Google\\Chrome\\写自己的路径\\chromedriver.exe");WebDriver driver = new ChromeDriver();// 打开网页driver.get("https://pixabay.com/zh/music/search/%e5%86%a5%e6%83%b3/");// 等待页面加载完成try {Thread.sleep(5000); // 等待5秒,可根据实际情况调整} catch (InterruptedException e) {e.printStackTrace();}// 定位并点击下载按钮
//        WebElement downloadButton = driver.findElement(By.xpath("//a[@class='item small button download']"));/*** driver.findElement(By.xpath()): 这是 Selenium WebDriver 提供的方法之一,用于查找页面上符合指定条件的元素。By.xpath() 是一种通过 XPath 表达式来定位元素的方式。XPath 是一种用于在 XML 文档中定位节点的语言,也可用于 HTML 文档。"//a[@class='item small button download']": 这是 XPath 表达式,用于描述要查找的元素的位置。具体解释如下://: 表示从文档根节点开始搜索匹配的元素。
a: 表示要匹配的元素是 <a> 标签。
[@class='item small button download']: 这部分是属性条件,指定了要匹配的 <a> 元素必须具有 class 属性为 'item small button download'。这是下载按钮的特定 class 名称。
所以,整个代码行的作用就是在页面中查找一个 <a> 标签,并且该标签具有指定的 class 属性,其值为 'item small button download',然后将找到的元素存储在 WebElement 对象 downloadButton 中,以便后续操作。* */List<WebElement> downloadButton = driver.findElements(By.xpath("//button[@aria-label=\"播放\"]"));// 循环点击每个下载按钮for (WebElement button : downloadButton) {System.out.println("点击第一个下载按钮");JavascriptExecutor executor = (JavascriptExecutor)driver;executor.executeScript("arguments[0].click();", button);//            button.click();// 等待一段时间,以确保下载操作完成或者页面跳转try {Thread.sleep(2000); // 等待2秒,可根据实际情况调整} catch (InterruptedException e) {e.printStackTrace();}}// 定位所有 <audio> 标签元素List<WebElement> audioElements = driver.findElements(By.tagName("audio"));// 输出每个 <audio> 标签中的 src 属性值for (WebElement audioElement : audioElements) {String src = audioElement.getAttribute("src");System.out.println("src: " + src);// 找到最后一个斜杠的索引int lastIndex = src.lastIndexOf("/");// 截取最后一个斜杠后的子串String fileName = src.substring(lastIndex + 1);// 下载文件downloadFile(src, "D:\\迅雷下载\\music\\"+fileName);}// 关闭浏览器
//        driver.quit();}public static void downloadFile(String fileUrl, String saveFilePath) {try {URL url = new URL(fileUrl);URLConnection conn = url.openConnection();// 添加User-Agent头信息conn.setRequestProperty("User-Agent", "Mozilla/5.0");InputStream in = conn.getInputStream();FileOutputStream out = new FileOutputStream(saveFilePath);byte[] buffer = new byte[1024];int bytesRead;while ((bytesRead = in.read(buffer)) != -1) {out.write(buffer, 0, bytesRead);}out.close();in.close();System.out.println("文件下载完成!");} catch (IOException e) {e.printStackTrace();}}
}```

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/280027.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Word2vec 学习笔记

word2vec 学习笔记 0. 引言1. Word2vec 简介1-1. CBOW1-2. SG 2. 实战 0. 引言 最近研究向量检索&#xff0c;看到有同事使用 MeCab、Doc2Vec&#xff0c;所以把 Word2vec 这块知识学习一下。 1. Word2vec 简介 Word2vec 即 word to vector&#xff0c;顾名思义&#xff0c;…

【老话常谈之Java自学】自学Java应该怎么规划学习内容?

如果你学Java的目的是为了找到一份好工作 问这个问题之前,首先你确保自己了解了这些: IT行业都有哪些技能适合转行学习?每个技术都是做什么的?每个技术行业发展是怎样的?薪资怎么样?根据自己的情况和兴趣,选择到感兴趣的1-2个技术深入了解最终确定你就要学Java,并且有…

如何在代理的IP被封后立刻换下一个IP继续任务

目录 前言 1. IP池准备 2. 使用代理IP进行网络请求 3. 处理IP被封的情况 4. 完整代码示例 总结 前言 当进行某些网络操作时&#xff0c;使用代理服务器可以帮助我们隐藏真实IP地址以保护隐私&#xff0c;或者绕过一些限制。然而&#xff0c;经常遇到的问题是代理的IP可能…

Django框架的全面指南:从入门到高级【第128篇—Django框架】

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 Django框架的全面指南&#xff1a;从入门到高级 Django是一个高效、功能强大的Python Web框…

JDK21虚拟线程

目录 虚拟线程 话题 什么是平台线程&#xff1f; 什么是虚拟线程&#xff1f; 为什么要使用虚拟线程&#xff1f; 创建和运行虚拟线程 使用线程类和线程创建虚拟线程。生成器界面 使用Executor.newVirtualThreadPerTaskExecutor&#xff08;&#xff09;方法创建和运行…

针对BSV区块链新推出的网络访问规则NAR和警报系统AS的解释与问答

​​发表时间&#xff1a;2024年2月22日 BSV区块链社区团队最近开设了一个Twitter&#xff08;X&#xff09;话题空间&#xff0c;讨论BSV区块链协会最新推出的网络访问规则和警报系统的相关问题。 本次讨论由BSV区块链社区负责人Brett Banfe主持&#xff0c;以便社区成员更好…

刷题DAY29 | LeetCode 491-递增子序列 46-全排列 47-全排列 II

491 递增子序列&#xff08;medium&#xff09; 给你一个整数数组 nums &#xff0c;找出并返回所有该数组中不同的递增子序列&#xff0c;递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案。 数组中可能含有重复元素&#xff0c;如出现两个整数相等&#xff0c;也…

综合练习(python)

前言 有了前面的知识积累&#xff0c;我们这里做两个小练习&#xff0c;都要灵活运用前面的知识。 First 需求 根据美国/英国各自YouTube的数据&#xff0c;绘制出各自的评论数量的直方图 第一版 import numpy as np from matplotlib import pyplot as plt import matplo…

matlab中Signal Editor定义梯形信号输出矩形信号

matlab中Signal Editor定义梯形信号输出矩形信号&#xff0c;可以通过如下勾选差值数据实现梯形信号输出。

文件路径中‘/’与‘\’用法详解,与等效使用方法介绍

1、两种符号详解 在数据处理时&#xff0c;使用C或python语言读入数据时&#xff0c;涉及到文件路径的输入&#xff0c;文件路径在windows下&#xff0c;默认形式为但斜线‘\’&#xff0c;如下图&#xff1a; 若输入路径时&#xff0c;直接写成如下形式&#xff1a;“E:\codin…

JMeter 二次开发之环境准备

通过JMeter二次开发&#xff0c;可以充分发挥JMeter的潜力&#xff0c;定制化和扩展工具的能力以满足具体需求。无论是开发自定义插件、函数二次开发还是定制UI&#xff0c;深入学习和掌握JMeter的二次开发技术&#xff0c;将为接口功能测试/接口性能测试工作带来更多的便利和效…

10:00面试,10:06就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到8月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%…

Keil笔记(缘更)

Keil 一、使用Keil时可能会出现的问题1.Project框不见了2.添加文件时找不到3.交换文件位置4.main.c测试报1 warning5.搜索CtrlF 二、STLINK点灯操作1.配置寄存器进行点灯2.使用库函数进行点灯 3.GPIO1.LED闪烁4.按键控制LED 注&#xff1a; 一、使用Keil时可能会出现的问题 1.…

KVM 集成 OpenvSwitch 虚拟交换机

KVM 集成 OpenvSwitch 虚拟交换机 KVM(Kernel-based Virtual Machine)是Linux内核中的一种虚拟化技术&#xff0c;它允许在同一台主机上运行多个虚拟机。 在默认情况下&#xff0c;KVM使用基于Linux bridge的网络虚拟化解决方案。Linux bridge是一种内核模块&#xff0c;可将…

网络编程——预备知识

网络编程——预备知识 &#x1f343;套接字&#x1f33f;什么是套接字&#x1f33f;套接字的类型&#x1f33f;套接字的位置 &#x1f343;IP&#x1f343;端口号Port&#x1f343;字节序&#x1f343;地址信息结构&#xff08;结构体类型&#xff09; &#x1f343;套接字 &a…

【Python】: Django Web开发实战(详细教程)

Python Django全面介绍 Django是一个非常强大的Python Web开发框架&#xff0c;它以"快速开发"和"干净、实用的设计"为设计宗旨。本文将从Django的基本概念开始&#xff0c;逐渐引导大家理解如何使用Django构建复杂的web应用程序。 Django基本概念与原理…

浅谈前端路由原理hash和history

1、认识前端路由 本质 前端路由的本质&#xff0c;是监听 url 地址或 hash 值的改变&#xff0c;来切换渲染对应的页面组件 前端路由分为两种模式 hash 模式 history 模式 两种模式的对比 2、hash 模式 &#xff08;1&#xff09;hash 定义 hash 模式是一种把前端路由的路…

【MySQL】数据库的基础概念

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前学习计网、mysql和算法 ✈️专栏&#xff1a;MySQL学习 &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章对你有帮助的话 欢迎 评论&#x1f4ac…

【教程】rax3000m emmc刷机 支持硬件QOS MT7981到底值不值

为什么选择rax3000m&#xff1f; 1、恩山论坛237大佬放出了硬件QOS功能&#xff0c;而很多几百元路由器一旦开启QOS就会变软件NAT走CPU转发&#xff0c;效果还不如x86软路由。这样就非常适合刷机&#xff0c;在家里跑pt、迅雷等任务时候不会卡顿&#xff0c;实测&#xff0c;丢…

智慧公厕:卫生、便捷、安全的新时代厕所变革

在城市快速发展的背景下&#xff0c;公共厕所的建设和管理变得越来越重要。智慧公厕作为厕所变革的一项全新举措&#xff0c;通过建立公共厕所全面感知监测系统&#xff0c;以物联网、互联网、大数据、云计算、自动化控制技术为支撑&#xff0c;实现对公共厕所的智能化管理和运…