JAVA:利用 Jsoup 轻松解析和操作 HTML 的技术指南

1、简述

在现代 Java 开发中,处理 HTML 数据是一项常见需求,无论是抓取网页数据、解析 HTML 文档,还是操作 DOM 树,Jsoup 都是一个强大的工具。它是一个基于 Java 的 HTML 解析库,支持从 URL、文件或字符串中解析 HTML,提供类似于 jQuery 的 API,便于选择和操作 DOM 元素。

本文将介绍 Jsoup 的基本功能,并通过多个详细的代码示例展示如何使用它解析和操作 HTML。

在这里插入图片描述

2、为什么选择 Jsoup?

  • 简单易用:API 设计友好,功能丰富。
  • 强大的选择器:支持 CSS 选择器和 DOM 遍历。
  • 灵活的 HTML 操作:可以轻松修改 HTML。
  • 兼容性强:支持解析 HTML5 和宽松的 HTML。
  • 高效:可以从 URL 快速抓取内容。

在使用 Jsoup之前,需要添加其依赖。以下是 Jsoup 的 Maven 依赖:

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version>
</dependency>

3、基本使用方法

Spring Boot 集成 Jsoup,以下示例将演示如何使用 Jsoup 解析 HTML 文件和操作 DOM。

3.1 从 URL 抓取网页内容
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFromUrl {public static void main(String[] args) {try {// 从 URL 抓取网页内容Document document = Jsoup.connect("https://lsk-ww.cn").get();// 输出网页标题System.out.println("Title: " + document.title());// 输出网页的第一段文字System.out.println("First Paragraph: " + document.select("p").first().text());} catch (Exception e) {e.printStackTrace();}}
}
3.2 从字符串解析 HTML
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFromString {public static void main(String[] args) {String html = "<html><head><title>Jsoup Example</title></head>" +"<body><p>Hello, Jsoup!</p></body></html>";// 解析 HTML 字符串Document document = Jsoup.parse(html);// 输出标题和段落内容System.out.println("Title: " + document.title());System.out.println("Body Text: " + document.body().text());}
}
3.3 使用 CSS 选择器提取内容
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;public class JsoupCssSelector {public static void main(String[] args) {String html = "<html><body>" +"<div class='content'><h1>Header</h1><p>Paragraph 1</p></div>" +"<div class='footer'><p>Footer Paragraph</p></div>" +"</body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 使用 CSS 选择器提取内容Elements content = document.select(".content h1");System.out.println("Header: " + content.text());Elements footer = document.select(".footer p");System.out.println("Footer: " + footer.text());}
}
3.4 修改 HTML 内容
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupModifyHtml {public static void main(String[] args) {String html = "<html><body><p>Original Paragraph</p></body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 修改段落内容document.select("p").first().text("Updated Paragraph");// 输出修改后的 HTMLSystem.out.println(document.html());}
}
3.5 提取网页中的链接和图片
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class JsoupExtractLinks {public static void main(String[] args) {String html = "<html><body>" +"<a href='https://example.com'>Example</a>" +"<img src='image.jpg' alt='Example Image'>" +"</body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 提取链接Elements links = document.select("a[href]");for (Element link : links) {System.out.println("Link: " + link.attr("href") + " Text: " + link.text());}// 提取图片Elements images = document.select("img[src]");for (Element image : images) {System.out.println("Image: " + image.attr("src") + " Alt: " + image.attr("alt"));}}
}
3.6 处理表单数据
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFormExample {public static void main(String[] args) {try {// 提交表单Connection.Response response = Jsoup.connect("https://example.com/login").data("username", "user123").data("password", "pass123").method(Connection.Method.POST).execute();// 获取响应的 HTMLDocument document = response.parse();System.out.println("Response: " + document.body().text());} catch (Exception e) {e.printStackTrace();}}
}

4、使用场景

  • Web 抓取:提取网页内容,如标题、段落、链接等。
  • HTML 清洗:清理和格式化用户生成的 HTML。
  • 表单提交:模拟用户登录或提交数据。
  • DOM 操作:解析和修改 HTML 文件。
  • 数据提取:从 HTML 表格中提取结构化数据。

5、总结

Jsoup 是处理 HTML 的强大工具,具备快速抓取、解析和操作 HTML 的能力,适合多种应用场景。

常见的优点:

  • 使用简单,学习成本低。
  • 功能强大,支持多种 HTML 操作。
  • 兼容性强,能处理各种 HTML 格式。

常见的缺点:

  • 仅支持单线程操作,抓取效率有限。
  • 对于动态加载的网页(如 AJAX),需要结合其他工具使用。

通过本文的介绍和示例,希望您能快速上手 Jsoup 并应用到实际项目中。如果对本文内容有任何疑问或建议,欢迎留言!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32339.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人记录的一个插件,Unity-RuntimeMonitor

没有什么干货,仅仅是个人的记录 基于GUI做的一个工具:好处就是Monitor必须,Unity天然支持实时的Monitor;唯一不好处,就是默认字体太小了,layout居中,居右也是要自行设计的。 (下面文字是有一点点写错,但意思和功能就很牛逼了;并不是都按2 x shift,而是一个 shift 添…

云服务器安装宝塔面板部署

单机部署(前端vue项目) 服务器安装宝塔面板 连接到服务器 使用 SSH 连接到你的服务器&#xff1a; ssh rootip安装宝塔面板 运行以下命令来安装宝塔面板&#xff1a; yum install -y wget wget -O install.sh http://download.bt.cn/install/install_6.0.sh sh install.sh安…

Java数据结构第二十期:解构排序算法的艺术与科学(二)

专栏&#xff1a;Java数据结构秘籍 个人主页&#xff1a;手握风云 目录 一、常见排序算法的实现 1.1. 直接选择排序 1.2. 堆排序 1.3. 冒泡排序 1.4. 快速排序 一、常见排序算法的实现 1.1. 直接选择排序 每⼀次从待排序的数据元素中选出最小的⼀个元素&#xff0c;存放在…

【MapSet】哈希表

目录 1. 搜索树 1.1 概念 1.2 操作-查找 1.3 操作-插入 1.4 操作-删除&#xff08;难点&#xff09; 1.5 性能分析 1.6 和java类集的关系 2. 搜索 2.1 概念及场景 2.2 模型 3. Map的使用 3.1 关于Map的说明 3.2 关于Map.Entry的说明 3.3 Map的常用方法说明 3.4 …

手写一个Tomcat

Tomcat 是一个广泛使用的开源 Java Servlet 容器&#xff0c;用于运行 Java Web 应用程序。虽然 Tomcat 本身功能强大且复杂&#xff0c;但通过手写一个简易版的 Tomcat&#xff0c;我们可以更好地理解其核心工作原理。本文将带你一步步实现一个简易版的 Tomcat&#xff0c;并深…

git commit messege 模板设置 (规范化管理git)

配置方法 git config --global core.editor vim &#xff08;设置 Git 的默认编辑器为 Vim&#xff09;在用户根目录下&#xff08;~&#xff09;&#xff0c;创建一个.git_commit_msg文件&#xff0c;然后把下面的内容拷贝到文件中并保存。 [version][模块][类型]{解决xxx问题…

亚信安全发布第七期《勒索家族和勒索事件监控报告》

本周态势快速感知 本周全球共监测到勒索事件121起&#xff0c;与上周相比&#xff0c;勒索事件数量大幅下降&#xff0c;仍需注意防范。从整体上看Clop是影响最严重的勒索家族&#xff1b;本周Ransomhub和Akira也是活动频繁的两个恶意家族&#xff0c;需要注意防范。本周&…

React基础之项目实战

规范的项目结构 安装scss npm install sass -D 安装Ant Design组件库 内置了一些常用的组件 npm install antd --save 路由基础配置 npm i react-router-dom 路由基本入口 import Layout from "../page/Layout"; import Login from "../page/Login"; impor…

第44天:WEB攻防-PHP应用SQL盲注布尔回显延时判断报错处理增删改查方式

时间轴&#xff1a; 44天知识点总结&#xff1a; 1.mysql的增删改查功能 2.根据源码sql语句的三种sql注入&#xff1a;布尔盲注&#xff08;必须要有回显&#xff09; 延时判断&#xff08;都可以&#xff09; 报错回显&#xff08;必须要有报错处理机制&#xff09; 3.两个cms…

【51单片机】程序实验15.DS18B20温度传感器

主要参考学习资料&#xff1a;B站【普中官方】51单片机手把手教学视频 开发资料下载链接&#xff1a;http://www.prechin.cn/gongsixinwen/208.html 单片机套装&#xff1a;普中STC51单片机开发板A4标准版套餐7 目录 DS18B20介绍主要特性内部结构控制时序初始化时序写时序读时序…

Vue3 深度解析:构建现代Web应用的全新范式

Vue3 深度解析&#xff1a;构建现代Web应用的全新范式 mindmaproot(Vue3核心革新)性能优化Proxy响应式编译优化体积缩减Composition APIsetup语法逻辑复用TypeScript支持新特性TeleportSuspense片段支持工程化Vite集成自定义渲染器服务端渲染一、Vue3 架构革新&#xff1a;从O…

推理模型对SQL理解能力的评测:DeepSeek r1、GPT-4o、Kimi k1.5和Claude 3.7 Sonnet

引言 随着大型语言模型&#xff08;LLMs&#xff09;在技术领域的应用日益广泛&#xff0c;评估这些模型在特定技术任务上的能力变得越来越重要。本研究聚焦于四款领先的推理模型——DeepSeek r1、GPT-4o、Kimi k1.5和Claude 3.7 Sonnet在SQL理解与分析方面的能力&#xff0c;…

cesium安装与配置(visual studio版)

文章目录 一、下载Cesium二、解压Cesium三、VS打开网站四、参考文献 如有错误&#xff0c;请指正&#xff01;&#xff01;&#xff01; 一、下载Cesium 登录官网&#xff0c;下载Cesium。 点击箭头所指&#xff0c;下载Cesium 二、解压Cesium 解压Cesium压缩包得到以下文件…

Netty基础—3.基础网络协议二

大纲 1.网络基础的相关问题总结 2.七层模型和四层模型 3.物理层(网线 光缆 01电信号) 4.数据链路层(以太网协议 网卡mac地址) 5.网络层(IP协议 子网划分 路由器) 6.传输层(TCP和UDP协议 Socket 端口) 7.应用层(HTTP协议 SMTP协议) 8.浏览器请求一个域名会发生什…

Linux:Ubuntu server 24.02 上搭建 ollama + dify

一、安装Ubuntu 具体的安装过程可以参见此链接&#xff1a;链接&#xff1a;Ubuntu Server 20.04详细安装教程&#xff0c;这里主要记录一下过程中遇到的问题。 安装时subnet如何填写 在Ubuntu中subnet填写255.255.255.0是错误的&#xff0c;其格式为 xx.xx.xx.xx/yy &#…

算法练习——双指针算法(更新中)

一、介绍双指针算法 双指针&#xff08;或称为双索引&#xff09;算法是一种高效的算法技巧&#xff0c;常用于处理数组或链表等线性数据结构。它通过使用两个指针来遍历数据&#xff0c;从而减少时间复杂度&#xff0c;避免使用嵌套循环。双指针算法在解决诸如查找、排序、去重…

stm32week6

stm32学习 三.通信 5.硬件读取I2C 硬件读取I2C的代码(main.c与软件读取相同)&#xff1a; #include "stm32f10x.h" // Device header #include "MPU6050_Reg.h"#define MPU6050_ADDRESS 0xD0 //MPU6050的I2C从机地址/*** 函 数&…

qt+opengl 播放yuv视频

一、实现效果 二、pro文件 Qt widgets opengl 三、主要代码 #include "glwidget.h"GLWidget::GLWidget(QWidget *parent) : QOpenGLWidget(parent) {connect(&m_timer, &QTimer::timeout, this,[&](){this->update();});m_timer.start(1000/33); }v…

文本对抗样本系列的论文阅读笔记(整理合订)

文本对抗样本系列的论文阅读笔记 以前调研文本对抗样本时的论文笔记梳理&#xff0c;论文都很经典&#xff0c;有现成的框架&#xff08;TextAttack&#xff09;可以直接用&#xff0c;论文中部分内容直接是截取自论文&#xff0c;所以存在中英混合笔记的情况。 BERT-Attack …

相对与绝对路径的关系

首先&#xff0c;我们一起来了解相对路径和绝对路径的概念&#xff1a; 相对路径&#xff1a;相对于当前工作目录的路径&#xff0c;不以 / 开头&#xff0c;以一个 ""、./、../、。例如&#xff1a;nginx、./nginx 或 ../nginx绝对路径&#xff1a;从根目录 / 开始…