Python----Python高级(正则表达式:语法规则,re库)

一、正则表达式

1.1、概念

        正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、 regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特 殊字符(称为"元字符")。

        正则表达式使用单个字符串来描述、匹配一系列符合某个 句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。通俗 的说,正则表达式就是一种语法规则,用来匹配文本中的文本。

正则表达式非常强大,不仅在UNIX系统中应用广泛,近二十年来,在Windows系统 中也得到极大的发展,现如今主流的操作系统包括Linux、Unix、Windows和主流的 开发语言包括C/C++、Java、JavaScript、C#、Python、Go、PHP等。

1.2、特点 

缺点:

        正则表达式的语法可读性差

优点:
        正则表达式通用行很强,能够适用于很多编程语言

二、语法规则 

2.1、匹配什么字符

代码功能
.匹配任意1个字符(除了\n)
[ ]匹配[ ]中列举的字符
\d匹配数字,即0-9
\D匹配非数字,即不是数字
\s匹配空白,即 空格,tab键
\S匹配非空白
\w匹配非特殊字符,即a-z、A-Z、0-9、_、汉字
\W匹配特殊字符,即非字母、非数字、非汉字

2.2、匹配多少次

代码功能
*匹配前一个字符出现0次或者无限次,即可有可无
+匹配前一个字符出现1次或者无限次,即至少有1次
?匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m}匹配前一个字符出现m次
{m,n}匹配前一个字符出现从m到n次
{n,}匹配前一个字符出现n次以上

2.3、在哪里匹配

代码功能
^匹配字符串开头
$匹配字符串结尾
\b表示匹配单词边界。(比如\bword,可以匹配word、words,但不会匹配 sword)

2.4、匹配指定格式的字符

1. 使用()匹配指定格式的字符

(ab):表示在文本中只匹配ab这两个字符,且必须相邻

(a|b):表示在文本中匹配a或者b这两个字符,不一定相邻。

2. 使用[]匹配指定类别的字符串

[abcd]:表示匹配a或匹配b或匹配c或匹配d

[a-d]:表示匹配a或匹配b或匹配c或匹配d

[a-zA-Z0-9]:表示匹配所有的大小写英文和数字

[^0-9]:表示匹配除了数字之外的所有字符

2.5、单行模式与多行模式

1. 单行模式:

        在单行模式下,.可以匹配任何的字符,包括换行符,并且整个文本会 被认为是一个完整的文本,使用^和$只能匹配到文本的开头和结尾。

2. 多行模式:

        在多行模式下,.就不可以匹配换行符了,使用^和$可以匹配到每一行 的开始和结束。

2.6、贪婪匹配与懒惰匹配

1. 贪婪模式:指在正则表达式中的量词会尽可能多地匹配字符。

2. 懒惰模式:指在正则表达式中的量词会尽可能少地匹配字符。

2.7、?的几种用法

1. ?作为限定符,表示其修饰对象只能出现0次或1次。

2. ?放在量词前,表示将匹配模式改为懒惰匹配模式。

3. (?=pattern):表示匹配位置后面必须跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串。

4. (?!pattern):表示匹配位置后面不能跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串。

5. (?<=pattern):表示匹配位置前面必须跟着pattern模式的字符,匹配结果并 不包括这个模式的字符串。

6.(?<!pattern):表示匹配位置前面不能跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串

7.(?:pattern):表示将 pattern 包含在一个分组中,但不把这个分组的匹配结果 保存到分组编号中。

三、Python中的re库 

3.1、re.match

该函数尝试从字符串的起始位置匹配,如果起始位置没有匹配成功的话,就返回 None,否则会返回一个匹配对象

re.match(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        验证输入格式:检查用户输入是否符合特定的格式,例如电子邮件、电话号码、 日期等 

        提取信息:从字符串的开始位置提取符合正则表达式模式的字串,如提取文件名 等。

        数据解析:在处理日志文件或配置文件时,可以用来解析每行的开始部分,获取 关键信息。 

import rem = re.match('foo', 'food') # 返回匹配对象
print(m) # <re.Match object; span=(0, 3), match='foo'>m = re.match('foo', 'fbar') # 不匹配,返回None
print(m) # None

3.2、re.search

从文本中获取第一个符合正则表达式模式的字符的位置,并返回一个匹配对 象,如果没有匹配到,就返回None。

re.search(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        检查字符串是否包含子串:检查一个字符串是否包含某个特定的文本。

        提取数据:从字符串中的任意位置提取信息,例如从一个文本段落中提取所有提 到的日期。

        搜索文件:在某文件中查找特定的消息或事件。 

import rem = re.search('foo', 'hellofood')  
print(m) # <re.Match object; span=(6, 9), match='foo'>m = re.search('foo', 'hello')  
print(m) # None

3.3、re.findall

数从文本中寻找所有与模式匹配的子串,并将所有的匹配结果存储到一个列表中 进行返回,如果没有匹配成功会返回一个空列表。

re.findall(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        提取多个子串:当你需要在字符串中找到所有匹配特定模式的字串时。

        文本分析:在文本中,提取文本中特定的词汇、短语或模式。

import relst = re.findall('ab', 'abcdabcdabcd') 
print(lst) # ['ab', 'ab', 'ab']

3.4、re.sub

将文本中与模式匹配的部分替换为其他的内容

re.sub(pattern,repl,string,count,flags=0) 

        pattern:正则表达式的格式。

        repl:这是替换文本或一个函数。如果是文本,就是将匹配到的内容替换为该文本; 如果是函数,会在函数中进行文本处理的操作。

        string:被匹配的文本。

        count: 这是可选参数,表示替换的最大次数。默认值为 0,表示替换所有 匹配项。

        flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写、 设置多行匹配模式等,具体有哪些标志可参考下面的附录1表格。

应用场景

        文本格式化:将文本中的特定模式的文本替换为另一种格式。

        数据清洗:在处理数据时,移除或替换无效或不需要的字符,比如在一系列文本 中删除非数字字符以清理电话号码。

        敏感信息脱敏:在显示或存储数据前,将敏感信息(比如身份证号、手机号)的 部分内容替换为星号。 

import retext = 'yeah, but no, but yeah, but no'
print(re.sub('but', 'AND', text))
# yeah, AND no, AND yeah, AND no

3.5、re.split

将某文本根据匹配模式进行分割,并将分割后的结果放入列表中返 回

re.split(pattern,string,maxsplit,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        maxsplit:表示最大分割次数。默认值为 0,表示分割所 有匹配项。

        flags:标志位,用于控制正则表达式的匹配方式

import re
text = "apple, banana, orange, watermelon"
fruits = re.split(r',\s*', text)
print(fruits) #['apple', 'banana', 'orange', 'watermelon']

3.6、re.compile

预先编译正则表达式要匹配的模式,并会返回一个正则表达式的对象,该对 象与re.match返回的对象不同,该对象可以调用上面的函数。

re.compile(pattern, flags=0) 

        pattern:要匹配的正则表达式。

        flags:标志位,用于控制正则表达式的匹配方式

常见的应用场景:

        多次匹配:当你需要在一个较长的文本中多次应用同一个正则表达式时,使用 re.compile可以避免每次匹配时都重新编译表达式。

import re# 编译一个正则表达式模式,用于匹配手机号
email_pattern = re.compile(r'[1]{1}[3589]{1}[0-9]{9}')
text = '''1o23j0 rde013309876543cvbnoikdjgv10248895490-/*-+68-*8+'''
emails = email_pattern.search(text)print(emails)
# <re.Match object; span=(15, 26), match='13309876543'>

 四、思维导图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5515.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【16届蓝桥杯寒假刷题营】第1期DAY5

5.依依的询问最小值 - 蓝桥云课 问题描述 依依有个长度为 n 的序列 a&#xff0c;下标从 1 开始。 她有 m 次查询操作&#xff0c;每次她会查询下标区间在 [li​,ri​] 的 a 中元素和。她想知道你可以重新排序序列 a&#xff0c;使得这 m 次查询的总和最小。 求你求出 m 次…

机器学习10-解读CNN代码Pytorch版

机器学习10-解读CNN代码Pytorch版 我个人是Java程序员&#xff0c;关于Python代码的使用过程中的相关代码事项&#xff0c;在此进行记录 文章目录 机器学习10-解读CNN代码Pytorch版1-核心逻辑脉络2-参考网址3-解读CNN代码Pytorch版本1-MNIST数据集读取2-CNN网络的定义1-无注释版…

【机器学习实战中阶】使用SARIMAX,ARIMA预测比特币价格,时间序列预测

数据集说明 比特币价格预测&#xff08;轻量级CSV&#xff09;关于数据集 致谢 这些数据来自CoinMarketCap&#xff0c;并且可以免费使用该数据。 https://coinmarketcap.com/ 数据集:链接: 价格预测器 源代码与数据集 算法说明 SARIMAX&#xff08;Seasonal AutoRegressive …

将 AzureBlob 的日志通过 Azure Event Hubs 发给 Elasticsearch(1.标准版)

问题 项目里使用了 AzureBlob 存储了用户上传的各种资源文件&#xff0c;近期 AzureBlob 的流量费用增长很快&#xff0c;想通过分析Blob的日志&#xff0c;获取一些可用的信息&#xff0c;所以有了这个需求&#xff1a;将存储账户的日志&#xff08;读写&#xff0c;审计&…

【Red Hat8】:搭建FTP服务器

目录 一、匿名FTP访问 1、新建挂载文件 2、挂载 3、关闭防火墙 4、搭建yum源 5、安装VSFTPD 6、 打开配置文件 7、设置配置文件如下几个参数 8、重启vsftpd服务 9、进入图形化界面配置网络 10、查看IP地址 11、安装ftp服务 12、遇到拒绝连接 13、测试 二、本地…

Redis的Windows版本安装以及可视化工具

文章目录 redis安装redis安装包下载解压文件夹启动redis服务Redis路径配置环境变量打开redis客户端进行连接基础操作测试 redis可视化工具下载Redis Desktop Manager redis安装 redis安装包下载 windows版本readis下载&#xff1a;Releases tporadowski/redis 解压文件夹 我…

汽车钥匙发展史

介绍 最近在研究UWB数字钥匙的过程中&#xff0c;了解到汽车钥匙在短短的100多年以来的发展历程&#xff0c;让我不禁感慨科技的发展速度&#xff0c;本文主要介绍汽车发展过程中&#xff0c;车钥匙形态变化的历程及技术原理。 总体概述&#xff0c;汽车钥匙的发展&#xff0…

react install

react 安装 React 是一个用于构建用户界面的 JavaScript 库。以下是安装 React 的步骤&#xff1a; 使用 Create React App Create React App 是一个官方支持的命令行工具&#xff0c;用于快速搭建 React 应用。 安装 Node.js 和 npm 确保你的计算机上安装了 Node.js 和 npm…

Ubuntu如何安装redis服务?

环境&#xff1a; Ubuntu22.04 WSL2 问题描述&#xff1a; 如何安装redis服务&#xff1f; 解决方案&#xff1a; 1.在 Linux 上&#xff08;如 Ubuntu/Debian&#xff09;安装 1.通过包管理工具安装 Redis 服务器&#xff1a; sudo apt update sudo apt install redis…

element el-table合并单元格

合并 表格el-table添加方法:span-method"” <el-table v-loading"listLoading" :data"SHlist" ref"tableList" element-loading-text"Loading" border fit highlight-current-row :header-cell-style"headClass" …

【BUUCTF】[GXYCTF2019]BabySQli

进入页面如下 尝试万能密码注入 显示这个&#xff08;qyq&#xff09; 用burp suite抓包试试 发现注释处是某种编码像是base编码格式 MMZFM422K5HDASKDN5TVU3SKOZRFGQRRMMZFM6KJJBSG6WSYJJWESSCWPJNFQSTVLFLTC3CJIQYGOSTZKJ2VSVZRNRFHOPJ5 可以使用下面这个网页在线工具很方便…

R语言基础| 回归分析

写在前面 R语言拥有丰富的数据处理、统计分析和机器学习工具包&#xff0c;涵盖了从简单的描述统计到复杂的模型建立的各个方面。再加上数据的处理可以完美的衔接后续的可视化&#xff0c;这使得它成为处理各种类型和规模的数据集的理想选择。回归分析是统计学中一种用于探究自…

高并发内存池_CentralCache(中心缓存)和PageCache(页缓存)申请内存的设计

三、CentralCache&#xff08;中心缓存&#xff09;_内存设计 &#xff08;一&#xff09;Span的创建 // 页编号类型&#xff0c;32位下是4byte类型&#xff0c;64位下是8byte类型 // #ifdef _WIN64 typedef unsigned long long PageID; #else _WIN32 typedef size_t PageI…

【云网】云网络基础概念(华为云)

云网络基础概念&#xff08;华为云&#xff09; 一、虚拟网络 1、VPC概念 华为云提供的虚拟网络环境的基础单元是虚拟私有云&#xff08;Virtual Private Cloud&#xff09;。 VPC和传统的物理三层网络类似,也包括路由器、子网、子网网关、IP地址等传统概念。 典型组网逻辑…

WPF2-在xaml为对象的属性赋值

1. AttributeValue方式 1.1. 简单属性赋值1.2. 对象属性赋值 2. 属性标签的方式给属性赋值3. 标签扩展 (Markup Extensions) 3.1. StaticResource3.2. Binding 3.2.1. 普通 Binding3.2.2. ElementName Binding3.2.3. RelativeSource Binding3.2.4. StaticResource Binding (带参…

【经验分享】ARM Linux-RT内核实时系统性能评估工具

【经验分享】ARM Linux-RT内核实时系统性能评估工具 前言下载和编译方法常用工具介绍总结 前言 最近在研究Linux-RT实时系统&#xff0c;介绍下常用的实时系统的性能评估工具。 下载和编译方法 用git下载 git clone git://git.kernel.org/pub/scm/utils/rt-tests/rt-tests.…

基于 Spring Boot 和 Vue.js 的全栈购物平台开发实践

在现代 Web 开发中&#xff0c;前后端分离的架构已经成为主流。本文将分享如何使用 Spring Boot 和 Vue.js构建一个全栈购物平台&#xff0c;涵盖从后端 API 开发到前端页面实现的完整流程。 1. 技术栈介绍 后端技术栈 JDK 1.8&#xff1a;稳定且广泛使用的 Java 版本。 Spring…

ipad和macbook同步zotero文献附件失败的解决办法

背景&#xff1a;我所有的文献及其附件pdf都是在台式机&#xff08;windows系统&#xff09;&#xff0c;想要把这些文献同步到云上&#xff0c;然后再从云上同步到平板和其他笔记本电脑比如macbook。文献同步虽已成功&#xff0c;但文献附件都无法打开。 平板报错如下&#xf…

qml OpacityMask详解

1、概述 OpacityMask是QML&#xff08;Qt Meta-Object Language&#xff09;中的一种图形效果&#xff0c;它使用另一个项目&#xff08;通常是一个图像或图形项&#xff09;作为遮罩来控制源项目的透明度。这种效果允许开发者通过遮罩的alpha通道来精确地控制源项目中哪些部分…

(3)STM32 USB设备开发-USB存储设备

例程&#xff1a;STM32USBdevice: 基于STM32的USB设备例子程序 - Gitee.com 本篇为使用芯片内部flash作为USB存储设备的例程&#xff0c;没有知识&#xff0c;全是实操&#xff0c;按照步骤就能获得一个STM32的U盘。本例子是在野火F103MINI开发板上验证的&#xff0c;如果代码…