Python 爬虫入门(十二):正则表达式「详细介绍」

Python 爬虫入门(十二):正则表达式

  • 前言
  • 一、正则表达式的用途
  • 二、正则表达式的基本组成元素
    • 2.1 特殊字符
    • 2.2 量词
    • 2.3 位置锚点
    • 2.4 断言
    • 2.5 字符集
    • 2.6 字符类
      • 2.6.1 基本字符类
      • 2.6.2 常见字符类简写
      • 2.6.3 POSIX字符类
      • 2.6.4 组合使用
  • 三、 正则表达式语法规则
  • 四、高级特性
    • 4.1 回溯引用(捕获组)
      • 示例:匹配重复的单词
    • 4.2 非捕获组
      • 示例:非捕获组的使用
    • 4.3 贪婪与非贪婪匹配
      • 示例:贪婪与非贪婪的区别
    • 4.4 零宽断言
      • 示例:使用零宽断言匹配特定模式
  • 五、 实战案例
    • 5.1 网页数据抓取
      • 代码示例:提取图片地址
    • 5.2 数据清洗
      • 代码示例:清理电话号码中的特殊字符
    • 5.3 提取超链接
      • 代码示例:提取所有的URL
    • 5.4 提取网页中的文本内容
      • 代码示例:提取段落文本
    • 5.5 从JSON数据中提取特定键值对
      • 代码示例:提取JSON中的特定值
    • 5.6 清理HTML标签
      • 代码示例:去除HTML标签
  • 六、 总结

前言

  • 正则表达式(Regular Expression),在编程语言中通常缩写为regex或regexp,是一种用于字符串搜索和操作的模式描述方法。它通过定义一系列的规则来匹配、查找和管理文本数据。

正则表达式在线校验: https://tool.oschina.net/regex/
在这里插入图片描述

一、正则表达式的用途

正则表达式在各种编程任务中都有广泛的应用。以下是一些常见的用途:

  1. 网页数据抓取:通过解析HTML、JSON等格式化数据,爬虫可以精确定位并提取目标数据,例如从网页中提取标题、链接、图片地址等;
  2. 数据验证:用于验证用户输入是否符合特定格式,如邮箱地址、电话号码、邮政编码等;
  3. 文本搜索和替换:能够高效地在文本中查找和替换特定的字符串或模式;
  4. 字符串操作:用于复杂的字符串操作,如拆分、拼接、重构字符串等。

二、正则表达式的基本组成元素

在介绍正则表达式之前,我们需要了解一些基本的组成元素:

2.1 特殊字符

  • 任意字符. 匹配除换行符之外的任意单个字符。
  • 任意数字\d 等同于 [0-9],匹配任意一个数字字符。
  • 任意非数字\D 等同于 [^0-9],匹配任意一个非数字字符。
  • 任意字母[a-z] 匹配任意一个英文小写字母。
  • 任意非字母[^a-z] 匹配任意一个非英文小写字母的字符。

2.2 量词

  • *:出现0次或多次。
  • +:出现1次或多次。
  • ?:出现0次或1次。
  • {n}:确定出现n次。
  • {n,}:至少出现n次。
  • {n,m}:出现n到m次。

2.3 位置锚点

  • ^:行的开头。
  • $:行的结尾。

2.4 断言

  • \b:单词边界。
  • \B:非单词边界。

2.5 字符集

  • []:定义一个字符集,匹配其中的任意单个字符。
  • [^]:取反,匹配不在字符集中的任意单个字符。

2.6 字符类

字符类用于定义一组可以匹配的字符。它们通过方括号[]来表示,在匹配过程中,只要目标字符属于字符类中定义的范围,就会成功匹配。

2.6.1 基本字符类

  • [abc]:匹配abc中的任意一个字符。例如,正则表达式[abc]可以匹配字符串cat中的c

  • [^abc]:匹配除abc之外的任意字符。例如,正则表达式[^abc]可以匹配字符串dog中的d

  • [a-z]:匹配所有小写字母(从az)。例如,正则表达式[a-z]可以匹配字符串hello中的h

  • [A-Z]:匹配所有大写字母(从AZ)。例如,正则表达式[A-Z]可以匹配字符串Hello中的H

  • [0-9]:匹配所有数字字符(从09)。例如,正则表达式[0-9]可以匹配字符串year2024中的2

  • [a-zA-Z0-9]:匹配所有字母和数字,即大小写字母和数字组合。例如,正则表达式[a-zA-Z0-9]可以匹配字符串Pass123中的Pas等字符。

2.6.2 常见字符类简写

在正则表达式中,为了方便书写和理解,常用字符类通常会有一些简写形式:

  • \d:匹配任意一个数字字符,等同于[0-9]

  • \D:匹配任意一个非数字字符,等同于[^0-9]

  • \w:匹配任意一个字母、数字或下划线字符,等同于[a-zA-Z0-9_]

  • \W:匹配任意一个非字母、非数字和非下划线字符,等同于[^a-zA-Z0-9_]

  • \s:匹配任意一个空白字符,包括空格、制表符、换行符等,等同于[ \t\n\r\f\v]

  • \S:匹配任意一个非空白字符,等同于[^ \t\n\r\f\v]

2.6.3 POSIX字符类

在一些编程语言和工具中,还支持POSIX字符类,它们是预定义的一些字符类,用于匹配特定类型的字符。

  • [:alnum:]:匹配所有字母和数字字符,等同于[a-zA-Z0-9]

  • [:alpha:]:匹配所有字母字符,等同于[a-zA-Z]

  • [:digit:]:匹配所有数字字符,等同于[0-9]

  • [:lower:]:匹配所有小写字母字符,等同于[a-z]

  • [:upper:]:匹配所有大写字母字符,等同于[A-Z]

  • [:punct:]:匹配所有标点符号字符。

  • [:space:]:匹配所有空白字符,等同于\s

示例:字符类的使用

import re# 匹配所有小写字母
pattern = r'[a-z]'
text = "Hello World!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['e', 'l', 'l', 'o', 'o', 'r', 'l', 'd']# 匹配所有数字字符
pattern = r'\d'
text = "Contact: 123-456-7890"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '0']# 使用POSIX字符类匹配所有字母字符
pattern = r'[[:alpha:]]'
text = "Regex 101!"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['R', 'e', 'g', 'e', 'x']

2.6.4 组合使用

字符类可以与其他正则表达式元素结合使用,形成更加复杂的匹配模式。

# 匹配由字母和数字组成的字符串
pattern = r'\w+'
text = "User123 logged in."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['User123', 'logged', 'in']# 匹配以小写字母开头且后面跟着数字的字符串
pattern = r'[a-z]\d+'
text = "a123 B456 c789"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['a123', 'c789']

三、 正则表达式语法规则

正则表达式的语法规则是构建有效正则表达式的基础。以下是一些常见的语法规则:

  1. 组合:使用|来表示“或”,例如ab|cd可以匹配“ab”或“cd”。
  2. 分组:使用圆括号()来创建子表达式,允许对正则表达式的部分进行分组。
  3. 量词:使用量词来指定模式出现的次数。
  4. 转义特殊字符:使用反斜线\来转义特殊字符,使其作为普通字符匹配。

四、高级特性

正则表达式除了基本的字符匹配和量词之外,还包含一些高级特性,用于构建更为复杂的匹配模式。

4.1 回溯引用(捕获组)

捕获组不仅可以用于分组,还可以在正则表达式的其他部分进行引用。引用捕获组可以通过反斜线加上捕获组的编号来实现。

  • ():用来定义捕获组。
  • \1:表示对第一个捕获组的引用。

示例:匹配重复的单词

import re
pattern = r'\b(\w+)\s+\1\b'
text = "This is a test test string"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'test test'

4.2 非捕获组

有时我们需要分组但不希望它被捕获用于后续引用,可以使用非捕获组(?:...)

示例:非捕获组的使用

pattern = r'(?:ab|cd)+'
text = "ababcdbcd"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['ababcd', 'bcd']

4.3 贪婪与非贪婪匹配

正则表达式的匹配模式默认是贪婪的,即它会尽可能多地匹配字符。可以通过在量词后加上?来使匹配变为非贪婪的,匹配尽可能少的字符。

示例:贪婪与非贪婪的区别

import retext = "<div>hello</div><div>world</div>"# 贪婪匹配
greedy_pattern = r'<.*>'
greedy_match = re.findall(greedy_pattern, text)
print(greedy_match)  # 输出: ['<div>hello</div><div>world</div>']# 非贪婪匹配
non_greedy_pattern = r'<.*?>'
non_greedy_match = re.findall(non_greedy_pattern, text)
print(non_greedy_match)  # 输出: ['<div>', '</div>', '<div>', '</div>']

4.4 零宽断言

零宽断言用于在不消费字符的情况下进行匹配。它分为正向零宽断言(Lookahead)和反向零宽断言(Lookbehind)。

  • (?=...):正向零宽断言,表示某位置后必须匹配某模式。
  • (?<=...):反向零宽断言,表示某位置前必须匹配某模式。
  • (?!...):负向零宽断言,表示某位置后不能匹配某模式。
  • (?<!...):负向反向零宽断言,表示某位置前不能匹配某模式。

示例:使用零宽断言匹配特定模式

# 匹配'fox'前面是'quick'的单词
pattern = r'(?<=quick\s)fox'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'fox'# 匹配'fox'后面跟随'jumps'的单词
pattern = r'fox(?=\sjumps)'
text = "The quick brown fox jumps over the lazy dog"
match = re.search(pattern, text)
if match:print(f"Matched: {match.group(0)}")  # 输出: 'fox'

五、 实战案例

5.1 网页数据抓取

使用正则表达式从HTML中提取特定内容。

代码示例:提取图片地址

import rehtml_content = '''
<img src="image1.png" alt="image1">
<img src="image2.jpg" alt="image2">
<img src="image3.gif" alt="image3">
'''pattern = r'<img src="(.*?)"'
images = re.findall(pattern, html_content)
print(images)  # 输出: ['image1.png', 'image2.jpg', 'image3.gif']

5.2 数据清洗

在数据分析过程中,经常需要对数据进行清洗,去除无关字符或格式化数据。

代码示例:清理电话号码中的特殊字符

import retext = "Call us at (123) 456-7890 or 123.456.7890!"
cleaned_numbers = re.sub(r'[^\d]', '', text)
print(cleaned_numbers)  # 输出: '12345678901234567890'

5.3 提取超链接

从HTML文档中提取所有的超链接。

代码示例:提取所有的URL

import rehtml_content = '''
<a href="http://example.com/page1">Page 1</a>
<a href="https://example.com/page2">Page 2</a>
<a href="http://example.com/page3">Page 3</a>
'''pattern = r'<a href="(.*?)">'
links = re.findall(pattern, html_content)
print(links)  # 输出: ['http://example.com/page1', 'https://example.com/page2', 'http://example.com/page3']

5.4 提取网页中的文本内容

提取HTML标签中的文本内容,如提取所有段落标签

中的文本。

代码示例:提取段落文本

import rehtml_content = '''
<p>This is the first paragraph.</p>
<p>Here is the second paragraph with <a href="#">a link</a>.</p>
<p>And the third paragraph.</p>
'''pattern = r'<p>(.*?)</p>'
paragraphs = re.findall(pattern, html_content, re.DOTALL)
print(paragraphs)  # 输出: ['This is the first paragraph.', 'Here is the second paragraph with <a href="#">a link</a>.', 'And the third paragraph.']

5.5 从JSON数据中提取特定键值对

在处理API返回的JSON数据时,可以使用正则表达式快速提取特定的键值对。

代码示例:提取JSON中的特定值

import rejson_data = '''
{"name": "John Doe","email": "john.doe@example.com","phone": "+123-456-7890","address": "123 Main St, Anytown, USA"
}
'''pattern = r'"phone":\s*"(.*?)"'
phone_number = re.search(pattern, json_data).group(1)
print(phone_number)  # 输出: '+123-456-7890'

5.6 清理HTML标签

清理文本中的HTML标签,提取纯文本内容。

代码示例:去除HTML标签

import rehtml_content = '''
<h1>Title</h1>
<p>This is a <strong>bold</strong> statement.</p>
<p>Here is a <a href="#">link</a> and some <em>italic</em> text.</p>
'''clean_text = re.sub(r'<.*?>', '', html_content)
print(clean_text)  # 输出: 'Title\nThis is a bold statement.\nHere is a link and some italic text.'

六、 总结

本文详细介绍了正则表达式的基础知识、语法规则及高级特性,并结合实际案例展示了正则表达式在编程中的重要作用。通过掌握正则表达式,你可以更高效地处理文本数据,解决各种复杂的字符串匹配问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408051.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Datawhale X 李宏毅苹果书 AI夏令营 学习笔记(二)

自适应学习率 我们梯度下降在参数更新上&#xff0c;公式是 W t W t − 1 − η g t &#xff0c; η 是学习率&#xff0c; g t 是梯度 W_tW_{t-1}-\eta g_t&#xff0c;\eta是学习率&#xff0c;g_t是梯度 Wt​Wt−1​−ηgt​&#xff0c;η是学习率&#xff0c;gt​是梯度…

03_React 收集表单数据和 组件生命周期

React 收集表单数据和 组件生命周期 一、收集表单数据1、例子1.1 需求&#xff1a;定义一个包含表单的组件&#xff0c;输入用户名密码后&#xff0c;点击登录提示输入信息 2、理解&#xff1a;包含表单的组件分类2.1 受控组件2.2 非受控组件 二、高阶函数\_函数柯里化1、复习-…

9 正则表达式:Java爬虫和正则表达式、String中的正则表达式方法(基本语法7)

文章目录 前言一、正则表达式1 [ ] 语法(1)[ABC] 和 [^ABC](2)[A-Z]和[a-zA-Z]小总结2 特殊字符语法(\w 这些)3 数量符4 \ 、()、 |5 锚点 ^ 和 $,\b,\B6 (?i) : 忽略其后面的大小写 ---- 这个Java是可以的,其他语言我不知道(正则表达式虽然大多通用,但也有部分是…

zabbix5.0与7.0版本区别 切换建议

Zabbix5.0和Zabbix7.0的区别 1. 性能和扩展性优化 1.1 高效的数据处理和存储 优化的数据库性能&#xff1a; Zabbix 7.0 在数据库层面进行了多项优化&#xff0c;以减少查询延迟和提高数据处理速度。这包括对数据库结构的改进和索引优化&#xff0c;使得大规模数据的读取和写…

Spark-driver和executor启动过程

一、上下文 《Spark-SparkSubmit详细过程》详细分析了从脚本提交任务后driver是如何调用到自己编写的Spark代码的&#xff0c;而我们的Spark代码在运行前必须准备好分布式资源&#xff0c;接下来我们就分析下资源是如何分配的 二、Spark代码示例 我们以一个简单的WordCount程…

打卡学习Python爬虫第五天|Xpath解析的使用

什么是Xpath&#xff1f;是在XML文档中搜索内容的一门语言&#xff0c;HTML可以看作是xml的一个子集。 目录 1、安装lxml模块 2、导入lxml中的etree子模块 3、Xpath使用方法 3.1.选择节点 3.2.选择属性 3.3.选择文本内容 3.4.使用通配符*过滤节点 3.5.使用中括号[]索引…

Java学习_20_File以及IO流

文章目录 前言一、FileFile中常见的成员方法判断和获取创建和删除获取和遍历 二、IO流IO流体系结构字节流字节输出流&#xff1a;FileOutputStream字节输入流FileInputStrea文件拷贝try……catch异常处理中文乱码现象 字符流字符流读取FileReader字符流输出FileWriter底层原理 …

Linux 命令集合

1. linux 系统版本 1.1 linux系统的分类 linux系统&#xff0c;主要分Debian系和RedHat系&#xff0c;还有其它自由的发布版本。 1、Debian系主要有Debian&#xff0c;Ubuntu&#xff0c;Mint等及其衍生版本&#xff1b; 2、RedHat系主要有RedHat&#xff0c;Fedora&#xf…

Springsecurity 自定义AuthenticationManager

一、认证流程 1、当用户提交了一个他的凭证(用户名、密码) AbstractAuthenticationProcessingFilter 将会创建一个凭证信息&#xff0c;最终&#xff0c;该请求会被UsernamePasswordAuthenticationFilter 拦截将请求中用户名和密码&#xff0c;封装为 Authentication 对象&…

C++ | Leetcode C++题解之第365题水壶问题

题目&#xff1a; 题解&#xff1a; class Solution { public:bool canMeasureWater(int x, int y, int z) {if (x y < z) {return false;}if (x 0 || y 0) {return z 0 || x y z;}return z % gcd(x, y) 0;} };

AI大模型进化之路:机器学习九大算法画图详解

机器学习算法对于了解AI大模型的意义非常重要&#xff0c;它们是构建、训练和应用AI大模型的基础和关键。今天给大家整理了一份机器学习核心算法资料&#xff0c;建议收藏学习。 集成学习是一种机器学习算法&#xff0c;它通过构建多个模型并整合它们的预测结果来提高性能。常…

ST 表算法

ST 表 ST 表&#xff0c;主要思想是空间换时间&#xff0c;用于解决可重复贡献问题和 RMQ 问题。 可重复贡献问题 指某个运算 o p op op&#xff0c;有 x o p x x x\ op\ x\ \ x x op x x 。例如 m a x ( x , x ) x m i n ( x , x ) x g c d ( x , x ) x max(x,x)x\…

【Docker】Docker学习01 | 什么是docker?

本文首发于 ❄️慕雪的寒舍 因为本人没有学习过docker&#xff0c;虽然部署过很多镜像&#xff0c;但是对于docker底层的实现一概不知。趁学习一个新项目的契机&#xff0c;将docker的相关概念了解清楚。 安装docker的教程请查看 Linux主机安装docker。 如果你想和我一起学习do…

TCP的连接建立及报文段首部格式

粘包问题&#xff1a; 原因&#xff1a;TCP流式套接字&#xff1b;数据与数据之间没有边界&#xff1b;导致可能多次的数据粘到一起。 解决办法&#xff1a; 规定一些数据与数据之间的间隔符&#xff0c;如&#xff1a;"\aa\", "\r\n"。指定要发送的数据…

exec函数簇

一、main 函数的参数定义 在C语言中&#xff0c;main 函数是程序执行的入口点。main 函数可以接受参数&#xff0c;这些参数通常用于从命令行接收输入。main 函数的参数定义通常遵循以下形式&#xff1a; int main(int argc, char *argv[]) 或者等价地&#xff1a; int mai…

91. UE5 RPG 实现拖拽装配技能以及解除委托的绑定

在上一篇文章里&#xff0c;实现了通过选中技能&#xff0c;然后点击下方的装备技能插槽实现了技能的装配。为了丰富技能装配功能&#xff0c;在这一篇里&#xff0c;我们实现一下通过拖拽技能&#xff0c;实现拖拽功能&#xff0c;我们需要修改两个用户控件&#xff0c;一个就…

杰发科技AC7840——CAN通信简介(8)_通过波特率和时钟计算SEG_1/SEG_2/SJW/PRESC

通过公式计算 * 波特率和采样点计算公式&#xff1a;* tSeg1 (S_SEG_1 2); tSeg2 (S_SEG_2 1).* BandRate (SCR_CLK / (S_PRESC 1) / ((S_SEG_1 2) (S_SEG_2 1))), SCR_CLK 为CAN 模块源时钟* SamplePoint (tSeg1 / (tSeg1 tSeg2)). {0x0D, 0x04, 0x04, 0x3B},…

文件IO和多路复用IO

目录 前言 一、文件 I/O 1.基本文件 I/O 操作 1.1打开文件 1.2读取文件内容 (read) 1.3写入文件 (write) 1.4关闭文件 (close) 2.文件指针 二、多路复用 I/O 1.常用的多路复用 I/O 模型 1.1select 1.2poll 1.3epoll 2.使用 select、poll 和 epoll 进行简单的 I/O…

软件测试最全面试题,了解一下

一、前言 近期有不少同学&#xff0c;朋友问我什么是软件测试&#xff0c;它是干什么的&#xff0c;我适不适合做、这行发展前景、工资怎么样等等等…在这里我把问题总结一下&#xff0c;整理一篇文章出来。 我也看过很多贴吧、论坛&#xff0c;在入行之前对这块都是迷茫的&a…

数据结构----栈

一丶概念 只能在一端进行插入和删除操作的线性表&#xff08;又称为堆栈&#xff09;&#xff0c;进行插入和删除操作的一端称为栈顶&#xff0c;另一端称为栈底 二丶特点 先进后出 FILO first in last out 后进先出 LIFO last in first out 三丶顺序栈 逻辑结构&…