【爬虫】解析爬取的数据

目录

  • 一、正则表达式
    • 1、常用元字符
    • 2、量词
    • 3、Re模块
    • 4、爬取豆瓣电影
  • 二、Xpath
    • 1、Xpath解析
      • Ⅰ、节点选择
      • Ⅱ、路径表达式
      • Ⅲ、常用函数
    • 2、爬取豆瓣电影


解析数据,除了前面的BeautifulSoup库,还有正则表达式和Xpath两种方法。

一、正则表达式

正则表达式(简称RE)是一种用来描述和匹配字符串模式的工具。

它广泛应用于文本处理、数据验证、文本搜索和替换等场景。正则表达式使用一种特殊的语法,可以对字符串进行复杂的模式匹配。

正则表达式测试:在线正则表达式测试

1、常用元字符

元字符:具有固定含义的特殊符号。每个元字符,默认只匹配一个字符串,并且不能匹配换行符。

元字符描述示例
.匹配除换行符以外的任意字符a.b 可以匹配 a1bacb
\w匹配字母、数字或下划线\w+ 匹配 helloworld_123
\s匹配任意的空白字符\s+ 匹配空格、制表符等
\d匹配数字\d+ 匹配 123456
\n匹配一个换行符hello\nworld 匹配换行符
\t匹配一个制表符hello\tworld 匹配制表符
^匹配字符串的开始^Hello 匹配 Hello 开头的字符串
$匹配字符串的结束World$ 匹配 World 结尾的字符串
\W匹配非字母、非数字、非下划线的字符\W+ 匹配 !@#$%^
\D匹配非数字字符\D+ 匹配 abcXYZ
\S匹配非空白字符\S+ 匹配 helloworld123
`ab`匹配字符 a 或字符 b
(...)捕获括号内的表达式,表示一个组(abc) 捕获 abc
[...]匹配方括号中的任意字符[abc] 匹配 abc
[^...]匹配不在方括号中的任意字符[^abc] 匹配除 abc 之外的任意字符

2、量词

量词:控制前面的元字符出现的次数

量词描述
*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n到m次

惰性匹配.*?:尽可能少地匹配字符。在重复元字符后加 ? 实现惰性匹配。
贪婪匹配.*:尽可能多地匹配字符。默认的重复元字符都是贪婪的。

惰性匹配

贪婪匹配

3、Re模块

在Python中使用处理正则表达式,可以使用 re 模块,这个模块提供了一系列用于搜索、匹配和操作字符串的函数。

函数描述
re.search(pattern, string, flags=0)搜索字符串,返回第一个匹配的对象;若无匹配返回 None
re.match(pattern, string, flags=0)从字符串起始位置匹配模式;若匹配成功返回匹配对象,否则 None
re.fullmatch(pattern, string, flags=0)整个字符串完全匹配模式返回匹配对象,否则返回 None
re.findall(pattern, string, flags=0)返回字符串中所有非重叠匹配的列表
re.finditer(pattern, string, flags=0)返回字符串中所有非重叠匹配的迭代器
re.sub(pattern, repl, string, count=0, flags=0)用替换字符串替换匹配模式的所有部分,返回替换后的字符串
re.split(pattern, string, maxsplit=0, flags=0)根据模式匹配分割字符串,返回分割后的列表
import re# 示例文本
text = "在2024年,Python是最受欢迎的编程语言之一。Python 3.9版本在2020年发布。"# 1. re.search() 搜索字符串,返回第一个匹配的对象
# 查找第一个数字序列
search_result = re.search(r'\d+', text)
if search_result:print(f"re.search: 找到的第一个数字是 '{search_result.group()}',位置在 {search_result.start()}")  # 2. re.match() 从字符串起始位置匹配模式
# 匹配字符串开头是否为 '在'
match_result = re.match(r'在', text)
if match_result:print(f"re.match: 匹配的字符串是 '{match_result.group()}',位于字符串的开始")# 3. re.fullmatch() 整个字符串完全匹配模式
# 检查整个字符串是否只包含中文字符
fullmatch_result = re.fullmatch(r'[\u4e00-\u9fff]+', '在编程')
if fullmatch_result:print(f"re.fullmatch: 整个字符串完全匹配,匹配到的内容是 '{fullmatch_result.group()}'")  # 4. re.findall() 返回字符串中所有非重叠匹配的列表
# 查找所有的数字序列
findall_result = re.findall(r'\d+', text)
print(f"re.findall: 找到的所有数字序列是 {findall_result}") # 5. re.finditer() 返回字符串中所有非重叠匹配的迭代器
# 查找所有的数字序列,并逐一输出
finditer_result = re.finditer(r'\d+', text)
for match in finditer_result:print(f"re.finditer: 找到的数字是 '{match.group()}',位置在 {match.start()}")  # 6. re.sub() 用替换字符串替换匹配模式的所有部分
# 将所有数字替换为 '#'
sub_result = re.sub(r'\d+', '#', text)
print(f"re.sub: 替换后的字符串是: {sub_result}") # 7. re.split() 根据模式匹配分割字符串
# 按照空白字符或标点分割字符串
split_result = re.split(r'[,。 ]+', text)
print(f"re.split: 分割后的字符串列表是: {split_result}") 

image-20240608195856954

4、爬取豆瓣电影

image-20240608200527961

<li>标签开始,逐步匹配到包含电影名的<span class="title">标签,使用非贪婪模式(.*?)匹配中间可能存在的任意字符,直到找到下一个明确的标记,用命名捕获组(?P<name>)提取出电影名部分。

Re表达式写法:

<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>

爬虫代码:

import requests
import re
from bs4 import BeautifulSoupheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0"
}for start_num in range(0, 250, 25):response = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers=headers)# 拿到页面源代码html = response.text# 使用re解析数据obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>',re.S)# 开始匹配result = obj.finditer(html)# 打印结果for it in result:print(it.group('name'))

二、Xpath

Xpath是在XML文档中搜索的一门语言,它可以通过路径表达式来选择节点或节点集,HTML是XML的一个子集。

安装lxml模块: pip install lxml

1、Xpath解析

Ⅰ、节点选择

符号解释
/从根节点选择。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.选择当前节点。
..选择当前节点的父节点。
@选择属性。

Ⅱ、路径表达式

表达式解释
/bookstore/book选择bookstore节点下的所有book子节点。
//book选择文档中的所有book节点,不考虑它们的位置。
bookstore/book[1]选择bookstore节点下的第一个book子节点。
//title[@lang]选择所有具有lang属性的title节点。
//title[@lang='en']选择所有lang属性为’en’的title节点。

Ⅲ、常用函数

  • text(): 选择元素的文本。
  • @attr: 选择元素的属性。
  • contains(): 判断包含关系。
  • starts-with(): 判断开始部分。
from lxml import etreehtml_content = '''
<html><body><div class="movie"><span class="title">肖申克的救赎</span><span class="title">The Shawshank Redemption</span></div><div class="movie"><span class="title">霸王别姬</span><span class="title">Farewell My Concubine</span></div></body>
</html>
'''# 解析HTML
tree = etree.HTML(html_content)# 提取电影标题
titles_cn = tree.xpath('//div[@class="movie"]/span[@class="title"][1]/text()')
titles_en = tree.xpath('//div[@class="movie"]/span[@class="title"][2]/text()')# 打印结果
for cn, en in zip(titles_cn, titles_en):print(f'中文标题: {cn}, 英文标题: {en}')
//div[@class="movie"]/span[@class="title"][1]/text()

//div[@class="movie"]:选择所有class为movie的div元素。

/span[@class="title"][1]:选择每个div中class为title的第一个span元素。

/text():获取span元素的文本内容。

//div[@class="movie"]/span[@class="title"][2]/text()

类似上述表达式,但选择的是每个div中class为title的第二个span元素。

2、爬取豆瓣电影

豆瓣

import requests
from lxml import etreeheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0"
}for start_num in range(0, 250, 25):response = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers=headers)# 拿到页面源代码html = response.text# 使用lxml解析页面html = etree.HTML(html)# 提取电影名字titles = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')# 提取评分ratings = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()')# 打印结果for title, rating in zip(titles, ratings):print(f"电影: {title} 评分: {rating}")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/375370.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RK3588开发笔记(四):基于定制的RK3588一体主板升级镜像

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/140288662 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

Java---SpringBoot详解一

人性本善亦本恶&#xff0c; 喜怒哀乐显真情。 寒冬暖夏皆有道&#xff0c; 善恶终归一念间。 善念慈悲天下广&#xff0c; 恶行自缚梦难安。 人心如镜自省照&#xff0c; 善恶分明照乾坤。 目录 一&#xff0c;入门程序 ①&#xff0c;创建springboot工程&#…

Apache配置与应用(优化apache)

Apache配置解析&#xff08;配置优化&#xff09; Apache链接保持 KeepAlive&#xff1a;决定是否打开连接保持功能&#xff0c;后面接 OFF 表示关闭&#xff0c;接 ON 表示打开 KeepAliveTimeout&#xff1a;表示一次连接多次请求之间的最大间隔时间&#xff0c;即两次请求之间…

秋招Java后端开发冲刺——Mybatis使用总结

一、基本知识 1. 介绍 MyBatis 是 Apache 的一个开源项目&#xff0c;它封装了 JDBC&#xff0c;使开发者只需要关注 SQL 语句本身&#xff0c;而不需要再进行繁琐的 JDBC 编码。MyBatis 可以使用简单的 XML 或注解来配置和映射原生类型、接口和 Java POJO&#xff08;Plain …

【网络安全科普】网络安全指南请查收

随着社会信息化深入发展&#xff0c;互联网对人类文明进步奖发挥更大的促进作用。但与此同时&#xff0c;互联网领域的问题也日益凸显。网络犯罪、网络监听、网络攻击等是又发生&#xff0c;网络安全与每个人都息息相关&#xff0c;下面&#xff0c;一起来了解网络安全知识吧。…

开放式耳机哪款性价比高?这五款超值精品不容错过

喜欢进行户外运动的小伙伴们&#xff0c;应该都很需要一款既可以匹配运动场景&#xff0c;又兼顾音质体验的无线蓝牙耳机吧。而开放式耳机拥有佩戴舒适牢固&#xff0c;不堵塞耳部&#xff0c;不影响外部声音传入耳部的优点&#xff0c;完全可以成为运动健身人士户外运动的好伴…

『C + ⒈』‘\‘

&#x1f942;在反斜杠(\)有⒉种最常用的功能如下所示&#x1f44b; #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> int main(void) {int a 10;int b 20;int c 30;if (a 10 &&\b 20 &&\c 30){printf("Your print\n");}else{prin…

Java 多继承与接口

Java 多继承与接口 1、为什么Java不支持多继承&#xff1f;2、使用接口实现多继承2.1 接口的定义与实现 3、接口的优点4、结论 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 多继承是指一个类可以继承多个父类&#xff0c;从而获得多个父类…

Spring Boot Vue 毕设系统讲解 3

目录 项目配置类 项目中配置的相关代码 spring Boot 拦截器相关知识 一、基于URL实现的拦截器&#xff1a; 二、基于注解的拦截器 三、把拦截器添加到配置中&#xff0c;相当于SpringMVC时的配置文件干的事儿&#xff1a; 项目配置类 项目中配置的相关代码 首先定义项目认…

java使用poi-tl模版引擎导出word之if判断条件的使用

文章目录 模版中if语句条件的使用1.数据为False或空集合2.非False或非空集合 模版中if语句条件的使用 如果区块对的值是 null 、false 或者空的集合&#xff0c;位于区块中的所有文档元素将不会显示&#xff0c;这就等同于if语句的条件为 false。语法示例&#xff1a;{{?stat…

Anthropic发布新工具改进大语言模型;商汤科技发布全球首个支持泰文的AI大模型

&#x1f989; AI新闻 &#x1f680; Anthropic发布新工具改进大语言模型 摘要&#xff1a;Anthropic 公司推出多项基于 Claude 3.5 Sonnet 大语言模型的新工具&#xff0c;提升提示词生成和测试能力。新增的“评估”单元帮助开发者自动化生成和微调提示&#xff0c;改进任务…

Kubernetes基于helm部署jenkins

Kubernetes基于helm安装jenkins jenkins支持war包、docker镜像、系统安装包、helm安装等。在Kubernetes上使用Helm安装Jenkins可以简化安装和管理Jenkins的过程。同时借助Kubernetes&#xff0c;jenkins可以实现工作节点的动态调用伸缩&#xff0c;更好的提高资源利用率。通过…

LabVIEW远程实验数据采集系统

随着科学研究的不断发展&#xff0c;实验室对远程数据采集和监控的需求越来越高。传统的数据采集方式往往需要实验人员亲临现场&#xff0c;费时费力&#xff0c;且数据实时性较差。为了解决这些问题&#xff0c;基于LabVIEW开发了一套远程实验数据采集系统&#xff0c;实现对实…

PPTP、L2TP、IPSec、IPS 有什么区别?

随着互联网的发展&#xff0c;保护网络通信的安全越来越重要。PPTP、L2TP、IPSec、IPS是常见的网络安全协议和技术&#xff0c;在保护网络通信安全方面发挥着不同的作用和特点。下面介绍PPTP、L2TP、IPSec、IPS之间的区别。 点对点隧道协议&#xff08;PPTP&#xff09;是一种用…

JVM是如何管理内存的?图文详解GC垃圾回收算法

前言&#xff1a;在C/C中对于变量的内存空间一般都是由程序员手动进行管理的&#xff0c;往往会伴随着大量的 malloc 和 free 操作&#xff0c;常常会有很多问题困扰开发者&#xff0c;这个代码会不会发生内存泄漏&#xff1f;会不会重复释放内存&#xff1f;但是在Java开发中我…

各地户外分散视频监控点位,如何实现远程集中实时监看?

公司业务涉及视频监控项目承包搭建&#xff0c;此前某个项目需求是为某林业公司提供视频监控解决方案&#xff0c;需要实现各地视频摄像头的集中实时监看&#xff0c;以防止国家储备林的盗砍、盗伐行为。 公司原计划采用运营商专线连接各个视频监控点位&#xff0c;实现远程视…

Redis的缓存雪崩,击穿,穿透的介绍

1.缓存雪崩 为保证缓存中的数据与数据库的数据一致,会给Redis里的数据设置一个过期时间,当缓存数据过期后,用户访问的数据如果不在缓存里,业务系统需要重新生成新的缓存,因为就会访问数据库,并将数据更新到Redis里,这样后续请求就可以直接命中缓存. 当大量缓存在同一时间过期或…

解决:WPS,在一个表格中,按多次换行,无法换到下一页

现象&#xff1a;在一个表格里面&#xff0c;多次按下回车&#xff0c;始终无法到下一页 解决方法&#xff1a;右击—>表格属性—>选择行—>勾选 允许跨页断行 效果演示 对比展示

基于Python+Flask+MySQL的新冠疫情可视化系统

基于PythonFlaskMySQL的新冠疫情可视化系统 FlaskMySQL 基于PythonFlaskMySQL的新冠疫情可视化系统 项目主要依赖前端&#xff1a;layui&#xff0c;Echart&#xff0c;后端主要是Flask&#xff0c;系统的主要支持登录注册&#xff0c;Ecahrt构建可视化图&#xff0c;可更换主…

004-基于Sklearn的机器学习入门:回归分析(下)

本节及后续章节将介绍机器学习中的几种经典回归算法&#xff0c;包括线性回归&#xff0c;多项式回归&#xff0c;以及正则项的岭回归等&#xff0c;所选方法都在Sklearn库中聚类模块有具体实现。本节为下篇&#xff0c;将介绍多项式回归和岭回归等。 目录 2.3 多项式回归 2…