JAVA：利用 Jsoup 轻松解析和操作 HTML 的技术指南

1、简述

在现代 Java 开发中，处理 HTML 数据是一项常见需求，无论是抓取网页数据、解析 HTML 文档，还是操作 DOM 树，Jsoup 都是一个强大的工具。它是一个基于 Java 的 HTML 解析库，支持从 URL、文件或字符串中解析 HTML，提供类似于 jQuery 的 API，便于选择和操作 DOM 元素。

本文将介绍 Jsoup 的基本功能，并通过多个详细的代码示例展示如何使用它解析和操作 HTML。

在这里插入图片描述

2、为什么选择 Jsoup？

简单易用：API 设计友好，功能丰富。
强大的选择器：支持 CSS 选择器和 DOM 遍历。
灵活的 HTML 操作：可以轻松修改 HTML。
兼容性强：支持解析 HTML5 和宽松的 HTML。
高效：可以从 URL 快速抓取内容。

在使用 Jsoup之前，需要添加其依赖。以下是 Jsoup 的 Maven 依赖：

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version>
</dependency>

3、基本使用方法

Spring Boot 集成 Jsoup，以下示例将演示如何使用 Jsoup 解析 HTML 文件和操作 DOM。

3.1 从 URL 抓取网页内容

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFromUrl {public static void main(String[] args) {try {// 从 URL 抓取网页内容Document document = Jsoup.connect("https://lsk-ww.cn").get();// 输出网页标题System.out.println("Title: " + document.title());// 输出网页的第一段文字System.out.println("First Paragraph: " + document.select("p").first().text());} catch (Exception e) {e.printStackTrace();}}
}

3.2 从字符串解析 HTML

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFromString {public static void main(String[] args) {String html = "<html><head><title>Jsoup Example</title></head>" +"<body><p>Hello, Jsoup!</p></body></html>";// 解析 HTML 字符串Document document = Jsoup.parse(html);// 输出标题和段落内容System.out.println("Title: " + document.title());System.out.println("Body Text: " + document.body().text());}
}

3.3 使用 CSS 选择器提取内容

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;public class JsoupCssSelector {public static void main(String[] args) {String html = "<html><body>" +"<div class='content'><h1>Header</h1><p>Paragraph 1</p></div>" +"<div class='footer'><p>Footer Paragraph</p></div>" +"</body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 使用 CSS 选择器提取内容Elements content = document.select(".content h1");System.out.println("Header: " + content.text());Elements footer = document.select(".footer p");System.out.println("Footer: " + footer.text());}
}

3.4 修改 HTML 内容

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupModifyHtml {public static void main(String[] args) {String html = "<html><body><p>Original Paragraph</p></body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 修改段落内容document.select("p").first().text("Updated Paragraph");// 输出修改后的 HTMLSystem.out.println(document.html());}
}

3.5 提取网页中的链接和图片

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class JsoupExtractLinks {public static void main(String[] args) {String html = "<html><body>" +"<a href='https://example.com'>Example</a>" +"<img src='image.jpg' alt='Example Image'>" +"</body></html>";// 解析 HTMLDocument document = Jsoup.parse(html);// 提取链接Elements links = document.select("a[href]");for (Element link : links) {System.out.println("Link: " + link.attr("href") + " Text: " + link.text());}// 提取图片Elements images = document.select("img[src]");for (Element image : images) {System.out.println("Image: " + image.attr("src") + " Alt: " + image.attr("alt"));}}
}

3.6 处理表单数据

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupFormExample {public static void main(String[] args) {try {// 提交表单Connection.Response response = Jsoup.connect("https://example.com/login").data("username", "user123").data("password", "pass123").method(Connection.Method.POST).execute();// 获取响应的 HTMLDocument document = response.parse();System.out.println("Response: " + document.body().text());} catch (Exception e) {e.printStackTrace();}}
}