【Python网络爬虫笔记】11- Xpath精准定位元素

目录

  • 一、Xpath 在 Python 网络爬虫中的作用
    • (一)精准定位元素
    • (二)应对动态网页
    • (三)数据结构化提取
  • 二、Xpath 的常用方法
    • (一)节点选取
    • (二)谓词筛选
    • (三)轴操作
  • 三、Xpath 在 Python 中的安装和使用
    • (一)安装
    • (二)使用 Xpath提取特定内容
  • 四、Xpath 在 Python 网络爬虫中的典型案例
    • (一)新闻网站数据抓取
    • (二)电商产品信息抓取

Xpath,能够帮助开发者从复杂的网页结构中精准地提取所需信息。本文将深入探讨 Xpath 在 Python 网络爬虫中的作用、常用方法、安装与使用步骤以及典型案例。

一、Xpath 在 Python 网络爬虫中的作用

(一)精准定位元素

网页是由 HTML 标签构建而成的复杂层级结构,包含了大量的文本、图片、链接等信息。在进行网络爬虫时,我们往往只对特定的部分感兴趣,例如网页中的文章标题、正文内容、商品价格等。Xpath 提供了一种强大的语法,能够通过元素的路径、属性等特征,在整个网页结构中精确地定位到我们想要提取信息的元素,避免了对无关信息的抓取,大大提高了数据采集的准确性和效率。
例如:如果我们要获取必应首页热点新闻,可以直接找他的XPath。(调试工具中找到对应HTML标记,可以复制该span的XPath)
在这里插入图片描述

(二)应对动态网页

传统的基于 HTML 标签的解析方式可能难以获取这些动态加载的数据。而 Xpath 结合一些支持动态网页解析的库(如 Selenium),可以在页面加载完成后,仍然准确地定位到动态生成的元素,从而实现对动态网页数据的抓取,拓宽了网络爬虫的应用范围。

(三)数据结构化提取

网络爬虫的最终目的通常是将抓取到的数据进行整理和分析,以满足特定的业务需求。Xpath 可以将网页中的多个新闻标题和对应的发布时间分别提取并整理成一个数据列表,其中每个元素都是一个包含标题和时间的字典,方便后续的数据处理和存储。

二、Xpath 的常用方法

(一)节点选取

  • 绝对路径选取:从根节点(通常是 html 标签)开始,按照层级关系依次指定每个节点的标签名,直到找到目标节点。例如:/html/body/div[1]/div[2]/h1,表示从根节点 html 开始,依次进入 body 节点下的第一个 div 节点,再进入其下的第二个 div 节点,最后获取其中的 h1 节点。
    注意:div[1]表示第1个div,XPath是从1开始的,不是从程序员的0开始的。
  • 相对路径选取:以当前节点为参考点,使用一些特殊符号来表示相对位置关系。例如://h1,表示在整个文档中查找所有的 h1 节点;./div,表示在当前节点下查找所有的 div 节点;../p,表示在当前节点的父节点下查找所有的 p 节点。

(二)谓词筛选

谓词用于对选取的节点进行进一步的筛选,以满足特定的条件。谓词通常写在方括号 [] 内,紧跟在节点名称或路径后面。例://div[@class="article"],表示选取所有 class 属性值为 articlediv 节点;//a[text()="点击这里"],表示选取文本内容为 “点击这里” 的 a 节点;//li[position()=3],表示选取第三个 li 节点。注意:一般把position省略,@后面接标记的属性,除了class,常用的还有id,超链接href

(三)轴操作

轴操作允许我们在文档树中沿着特定的轴(如祖先轴、子孙轴、兄弟轴等)来选取节点。例如://h2/ancestor::div,表示选取所有 h2 节点的祖先 div 节点;//ul/descendant::li,表示选取 ul 节点下的所有子孙 li 节点;//h3/following-sibling::p,表示选取所有与 h3 节点同级且在其后的 p 节点。轴操作在处理复杂的网页结构时非常有用,可以方便地获取与目标节点相关联的其他节点信息。

三、Xpath 在 Python 中的安装和使用

(一)安装

在 Python 中使用 Xpath,通常需要安装 lxml 库。可以使用 pip 命令进行安装,在命令行中执行以下命令:

pip install lxml

(二)使用 Xpath提取特定内容

以下示例,演示在 Python 中使用 Xpath 解析 HTML 页面中的标题和段落内容:

from lxml import etree# 假设已经获取到了网页的 HTML 内容,存储在变量 html 中
html = "<html><body><div class='container'><h1>标题</h1><p>这是一段正文内容。</p></div></body></html>"# 将 HTML 内容解析为 ElementTree 对象
tree = etree.HTML(html)# 使用 Xpath 选取标题元素并提取文本内容
title = tree.xpath("//h1/text()")[0]
print("标题:", title)# 选取正文段落元素并提取文本内容
paragraph = tree.xpath("//p/text()")[0]
print("正文:", paragraph)

运行结果:
在这里插入图片描述

在上述示例中,首先使用 etree.HTML 函数将 HTML 字符串解析为 ElementTree 对象,然后使用 xpath 方法传入 Xpath 表达式来选取相应的元素,并通过 text() 函数获取元素的文本内容。

四、Xpath 在 Python 网络爬虫中的典型案例

(一)新闻网站数据抓取

以某新闻网站为例,我们想要抓取该网站首页的新闻标题、发布时间和链接信息。网页结构如下:

<html><body><div class="news-list"><div class="news-item"><h2 class="news-title"><a href="news1.html">新闻标题 1</a></h2><span class="news-time">2024-12-10 10:00:00</span></div><div class="news-item"><h2 class="news-title"><a href="news2.html">新闻标题 2</a></h2><span class="news-time">2024-12-11 15:30:00</span></div><!-- 更多新闻项 --></div></body>
</html>

使用 Python 和 Xpath 实现数据抓取的代码如下:

import requests
from lxml import etree# 目标新闻网站首页 URL
url = "https://example.com/news"# 发送 GET 请求获取网页内容
response = requests.get(url)
html = response.text# 解析 HTML 内容
tree = etree.HTML(html)# 使用 Xpath 选取新闻标题、发布时间和链接
news_titles = tree.xpath("//div[@class='news-item']/h2[@class='news-title']/a/text()")
news_times = tree.xpath("//div[@class='news-item']/span[@class='news-time']/text()")
news_links = tree.xpath("//div[@class='news-item']/h2[@class='news-title']/a/@href")# 遍历并打印抓取到的数据
for i in range(len(news_titles)):print("标题:", news_titles[i])print("时间:", news_times[i])print("链接:", news_links[i])print("-" * 30)

运行结果:
在这里插入图片描述

在这个案例中,通过构造合适的 Xpath 表达式,分别选取了新闻标题、发布时间和链接元素,并将提取到的数据进行了打印输出。

(二)电商产品信息抓取

对于一个电商网站,我们希望抓取商品列表页面中的商品名称、价格和图片链接。假设网页结构如下:

<html><body><div class="product-list"><div class="product-item"><img src="product1.jpg" alt="商品图片 1"><h3 class="product-name">商品名称 1</h3><span class="product-price">¥99.99</span></div><div class="product-item"><img src="product2.jpg" alt="商品图片 2"><h3 class="product-name">商品名称 2</h3><span class="product-price">¥199.99</span></div><!-- 更多商品项 --></div></body>
</html>

以下是相应的 Python 代码:


# 导入相关库
from lxml import etree# 本地新闻网页文件路径
file_path = "goods.html"# 读取本地文件内容
with open(file_path, 'r', encoding='utf-8') as file:html = file.read()# 解析 HTML
tree = etree.HTML(html)# 提取商品名称、价格和图片链接
product_names = tree.xpath("//div[@class='product-item']/h3[@class='product-name']/text()")
product_prices = tree.xpath("//div[@class='product-item']/span[@class='product-price']/text()")
product_image_links = tree.xpath("//div[@class='product-item']/img/@src")# 展示抓取结果
for i in range(len(product_names)):print("商品名称:", product_names[i])print("价格:", product_prices[i])print("图片链接:", product_image_links[i])print("*" * 30)

运行结果:
在这里插入图片描述

综上所述,Xpath 在 Python 网络爬虫中扮演着至关重要的角色,它提供了强大而灵活的方式来定位和提取网页中的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/490055.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

现代密码学总结(上篇)

现代密码学总结 &#xff08;v.1.0.0版本&#xff09;之后会更新内容 基本说明&#xff1a; ∙ \bullet ∙如果 A A A是随机算法&#xff0c; y ← A ( x ) y\leftarrow A(x) y←A(x)表示输入为 x x x ,通过均匀选择 的随机带运行 A A A,并且将输出赋给 y y y。 ∙ \bullet …

深度学习训练参数之学习率介绍

学习率 1. 什么是学习率 学习率是训练神经网络的重要超参数之一&#xff0c;它代表在每一次迭代中梯度向损失函数最优解移动的步长&#xff0c;通常用 η \eta η 表示。它的大小决定网络学习速度的快慢。在网络训练过程中&#xff0c;模型通过样本数据给出预测值&#xff0…

lc46全排列——回溯

46. 全排列 - 力扣&#xff08;LeetCode&#xff09; 法1&#xff1a;暴力枚举 总共n!种全排列&#xff0c;一一列举出来放入list就行&#xff0c;关键是怎么去枚举呢&#xff1f;那就每次随机取一个&#xff0c;然后删去这个&#xff0c;再从剩下的数组中继续去随机选一个&a…

Docker 安装 Seata2.0.0 (快速配置)

说明&#xff1a;已安装Docker、MySql等&#xff0c;案例使用Mysql数据库模式、Nacos配置信息 1、准备工作 1.1 拉取镜像 [rootTseng ~]# docker pull seataio/seata-server:2.0.0 2.0.0: Pulling from seataio/seata-server 001c52e26ad5: Already exists d9d4b9b6e964: P…

渗透测试-前端验签绕过之SHA256+RSA

本文是高级前端加解密与验签实战的第2篇文章&#xff0c;本系列文章实验靶场为Yakit里自带的Vulinbox靶场&#xff0c;本文讲述的是绕过SHA256RSA签名来爆破登录。 绕过 根据提示可以看出这次签名用了SHA2556和RSA两个技术进行加密。 查看源代码可以看到RSA公钥是通过请求服务…

【JavaEE】网络(2)

一、网络编程套接字 1.1 基础概念 【网络编程】指网络上的主机&#xff0c;通过不同的进程&#xff0c;以编程的方式实现网络通信&#xff1b;当然&#xff0c;我们只要满足进程不同就行&#xff0c;所以即便是同一个主机&#xff0c;只要是不同进程&#xff0c;基于网络来传…

《操作系统 - 清华大学》7 -1:全局页面置换算法:局部页替换算法的问题、工作集模型

文章目录 1. 局部页替换算法的问题2. 全局置换算法的工作原理3. 工作集模式3.1 工作集3.2 工作集的变化 4 常驻集 1. 局部页替换算法的问题 局部页面置换算法 OPT&#xff0c;FIFO&#xff0c;LRU&#xff0c;Clock 等等&#xff0c;这些算法都是针对一个正在运行的程序来讲的…

SpringCloud和Nacos的基础知识和使用

1.什么是SpringCloud ​   什么是微服务&#xff1f; ​   假如我们需要搭建一个网上购物系统&#xff0c;那么我们需要哪些功能呢&#xff1f;商品中心、订单中心和客户中心等。 ​   当业务功能较少时&#xff0c;我们可以把这些功能塞到一个SpringBoot项目中来进行…

LLMs之APE:基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略

LLMs之APE&#xff1a;基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略 目录 Prompt Improver的简介 0、背景痛点 1、优势 2、实现思路 Prompt优化 示例管理 提示词评估 Prompt Improver的使用方法 1、使用方法 Prompt Improver的案例应用 1、Kap…

CMake简单使用(二)

目录 五、scope 作用域5.1 作用域的类型5.1.1 全局作用域5.1.2 目录作用域5.1.3 函数作用域 六、宏6.1 基本语法6.2 演示代码 七、CMake构建项目7.1 全局变量7.2 写入源码路径7.3 调用子目录cmake脚本7.4 CMakeLists 嵌套(最常用) 八、CMake 与库8.1 CMake生成动静态库8.1.1 动…

ASP.NET |日常开发中读写XML详解

ASP.NET &#xff5c;日常开发中读写XML详解 前言一、XML 概述1.1 定义和结构1.2 应用场景 二、读取 XML 文件2.1 使用XmlDocument类&#xff08;DOM 方式&#xff09;2.2 使用XmlReader类&#xff08;流方式&#xff09; 三、写入 XML 文件3.1 使用XmlDocument类3.2 使用XmlWr…

自动化测试之单元测试框架

单元测试框架 一、单元测试的定义 1&#xff1a;什么是单元测试&#xff1f; 还记不记得我们软件测试学习的时候&#xff0c;按照定义&#xff1a;单元测试就是对单个模块或者是单个函数进行测试&#xff0c;一般是开发做的&#xff0c;按照阶段来分&#xff0c;一般就是单元…

JAVA爬虫获取1688关键词接口

以下是使用Java爬虫获取1688关键词接口的详细步骤和示例代码&#xff1a; 一、获取API接口访问权限 要使用1688关键词接口&#xff0c;首先需要获取API的使用权限&#xff0c;并了解接口规范。以下是获取API接口的详细步骤&#xff1a; 注册账号&#xff1a;在1688平台注册一…

【游戏设计原理】8 - 霍华德的隐匿性游戏设计法则

1. 霍华德的隐匿性游戏设计法则 霍华德的隐匿性游戏设计法则的核心思想是&#xff1a;“秘密的重要性与其表面上的无辜性和完整度成正比”。这意味着&#xff0c;当游戏开始时&#xff0c;设计上越是简洁、无害、直观的元素&#xff0c;隐藏的深层意义和转折就会显得更加震撼和…

k8s中用filebeat文件如何收集不同service的日志

以下是一个详细的从在 Kubernetes 集群中部署 Filebeat&#xff0c;到实现按web-oper、web-api微服务分离日志并存储到不同索引的完整方案&#xff1a; 理解需求&#xff1a;按服务分离日志索引 在 Kubernetes 集群中&#xff0c;有web-oper和web-api两种微服务&#xff0c;希…

前端退出对话框也就是点击右上角的叉,显示灰色界面,已经解决

文章目录 遇到一个前端bug&#xff0c;点击生成邀请码 打开对话框 然后我再点击叉号&#xff0c;退出对话框&#xff0c;虽然退出了对话框&#xff0c;但是显示灰色界面。如下图&#xff1a; 导致界面就会失效&#xff0c;点击任何地方都没有反应。 发现是如下代码的问题&am…

一区向量加权算法优化INFO-CNN-SVM卷积神经网络结合支持向量机多特征分类预测

一区向量加权算法优化INFO-CNN-SVM卷积神经网络结合支持向量机多特征分类预测 目录 一区向量加权算法优化INFO-CNN-SVM卷积神经网络结合支持向量机多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现INFO-CNN-SVM向量加权算法优化卷积神经网络结…

【Stable Diffusion】SD安装、常用模型(checkpoint、embedding、LORA)、提示词具、常用插件

Stable Diffusion&#xff0c;一款强大的AI模型&#xff0c;让我们能够创造出惊人的艺术作品。本文将为您介绍如何安装Stable Diffusion以及深入使用的学习教程。 1. 安装Stable Diffusion (需要的小伙伴可以文末自行扫描获取) Stable Diffusion的安装可能是第一步&#xff0…

【工具变量】上市公司企业资本支出数据(1990-2022年)

一、计算方式&#xff1a;资本支出的公式为:经营租赁所支付的现金购建固定资产、无影资产和其他长期资产所支付的现金-处置固定资产、无形资产和其它长期资产而收回的现金净额。 二、数据范围&#xff1a;包括原始数据详细来源和最终数据结果 三、参考文献&#xff1a;[1]杨兴…

洛谷 P10483 小猫爬山 完整题解

一、题目查看 P10483 小猫爬山 - 洛谷 二、解题思路 我们将采取递归 剪枝的思想&#xff1a; sum数组存放每辆车当前载重。 每次新考虑一只小猫时&#xff0c;我们尝试把它放进每个可以放进的缆车中&#xff08;需要回溯&#xff09; for (int i 0; i < k; i) {if (sum[i]…