python成长技能之正则表达式

文章目录

  • 一、认识正则表达式
  • 二、使用正则表达式匹配单一字符
  • 三、正则表达式之重复出现数量匹配
  • 四、使用正则表达式匹配字符集
  • 五、正则表达式之边界匹配
  • 六、正则表达式之组
  • 七、正则表达式之贪婪与非贪婪


一、认识正则表达式

  • 什么是正则表达式
    正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表
    示法、规则表达式、常规表示法,是计算机科学的一个概念
  • 正则表达式的作用
    正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正
    则表达式通常被用来检索、替换那些符合某个模式的文本
  • 正则表达式的特点
    灵活性、逻辑性和功能性非常强;
    可以迅速地用极简单的方式达到字符串的复杂控制

如何在python中使用正则表达式----findall方法

python中,要使用正则表达式,需要导入re模块,基本格式如下:

re.findall(pattern, string, flags=0)

函数参数说明
在这里插入图片描述
flags可选值如下
在这里插入图片描述

举例,使用findall()方法

import restr = "hello,my name is jie"result = re.findall("jie",str)
print(result)

打印结果

['jie']

在python中使用正则表达式----match方法
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none

import restr = "hello,my name is jie"# result = re.findall("jie",str)
# print(result)match = re.match("hello",str)
print(match.group(0))
hello
要获取匹配的结果,可以使用group(n),匹配结果又多个的时候,n从0开始递增
当匹配结果有多个的时候,也可以使用groups()一次性获取所有匹配的结果

re.search方法
re.search 扫描整个字符串并返回第一个成功的匹配

import re 
s = 'hello world hello' 
result = re.search('hello', s) 
print(result.group(0))

二、使用正则表达式匹配单一字符

  • 使用正则,匹配字符串中所有的数字
import re str = "12hellowordhello12"result = re.findall("\d",str)
print(result)

打印结果

['1', '2', '1', '2']
  • 使用正则,匹配字符串中所有的非数字
import re str = "12hellowordhello12"result = re.findall("\D",str)
print(result)

打印结果

['h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'd', 'h', 'e', 'l', 'l', 'o']
  • 使用正则匹配换页符
import re str = "12hellowordhello12" + chr(12)result = re.findall("\f",str)
print(result)

打印结果

['\x0c']
  • 使用正则,匹配换行符
import restr = "hello word my name is jie"
result = re.findall("/n",str)
print(result)

打印结果

[]

三、正则表达式之重复出现数量匹配

在这里插入图片描述

  • 匹配0次到无限次
import res = "hello world helloo hell"
print(re.findall('hello*', s))
['hello', 'helloo', 'hell']
  • 匹配一次或多次
import res = "hello world helloo hell"
print(re.findall('hello+', s))
['hello', 'helloo']
  • 匹配零次或一次
import res = "hello world helloo hell"
print(re.findall('hello?', s))
['hello', 'hello', 'hell']
  • 匹配n次
import res = "hello world helloo hell helloo hellooo helloo helloo"
print(re.findall('hello{2}', s))
['helloo', 'helloo', 'helloo', 'helloo', 'helloo']
  • 匹配至少n次
import res = "hello world helloo hell helloo hellooo helloo helloo"
print(re.findall('hello{2,}', s))
['helloo', 'helloo', 'hellooo', 'helloo', 'helloo']
  • 匹配n次以上,m次以下
import res = "hello world helloo hell helloo hellooo helloo helloo"
print(re.findall('hello{2,3}', s))
['helloo', 'helloo', 'hellooo', 'helloo', 'helloo']

四、使用正则表达式匹配字符集

在这里插入图片描述

  • 如果是连续的范围,可以使用横杠-
import restr = "110,120,130,230,250,160"
result = re.findall("1[1-9]0",str)
print(result)
['110', '120', '130', '160']
  • 表示不是某范围之内的,可以使用^取反
import restr = "110,120,130,230,250,160"
result = re.findall("1[^1-9]0",str)
print(result)
[]

五、正则表达式之边界匹配

在这里插入图片描述

  • 匹配整个字符串开头
import restr = "hello jiejie"result = re.findall("^he",str)
print(result)
['he']
  • 匹配整个字符串的结尾位置
import restr = "hello jiejie e e e"result = re.findall("e$",str)
print(result)
['e']
  • 匹配单词开头
import restr = "hello jiejie  hel"result = re.findall(r'\bhe',str)
print(result)
['he', 'he']

六、正则表达式之组

  • 什么是组
将括号:() 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 \1 到\9 的符号来引用
  • 捕获组(Capturing Groups):
    • 使用圆括号 () 定义的组被称为捕获组
    • 捕获组可以捕获匹配的部分,并可以在后续的处理中引用这些捕获的内容
  • 非捕获组(Non-Capturing Groups):
    • 使用 (?:…) 定义的组被称为非捕获组
    • 非捕获组不会捕获匹配的部分,仅用于分组和逻辑处理
  1. 假设我们有一个字符串,包含一些日期格式,如 “2023-10-01”,我们想分别捕获年、月和日
import re# 捕获组示例
text1 = "Today's date is 2023-10-01."
pattern1 = r'(\d{4})-(\d{2})-(\d{2})'
match1 = re.search(pattern1, text1)
if match1:year = match1.group(1)month = match1.group(2)day = match1.group(3)print(f'Year: {year}, Month: {month}, Day: {day}')# 输出结果
Year: 2023, Month: 10, Day: 01

代码解析

  • text1:输入字符串,包含日期。
  • pattern1:正则表达式模式,用于匹配日期格式。
    • (\d{4}):匹配四位数字(年份),并将其捕获为第一个组。
    • (\d{2}):匹配两位数字(月份),并将其捕获为第二个组。
    • (\d{2}):匹配两位数字(日期),并将其捕获为第三个组。
  • re.search(pattern1, text1):在 text1 中搜索与 pattern1 匹配的第一个子串。
  • match1.group(1):获取第一个捕获组(年份)。
  • match1.group(2):获取第二个捕获组(月份)。
  • match1.group(3):获取第三个捕获组(日期)。
  • print(f’Year: {year}, Month: {month}, Day: {day}'):打印捕获的年、月、日。
  1. 假设我们有一个字符串,包含一些电话号码,格式为 “123-456-7890”,我们想匹配这种格式,但不需要捕获每个部分
import retext = "Phone number: 123-456-7890."
pattern = r'(?:\d{3}-){2}\d{4}'match = re.search(pattern, text)
if match:print(f'Matched phone number: {match.group(0)}')# 输出结果
Matched phone number: 123-456-7890
  • text2:输入字符串,包含电话号码。
  • pattern2:正则表达式模式,用于匹配电话号码格式。
    • (?:\d{3}-):匹配三位数字后跟一个连字符,但不捕获这个组(非捕获组)。
    • {2}:前面的非捕获组重复两次。
    • \d{4}:匹配四位数字。
  • re.search(pattern2, text2):在 text2 中搜索与 pattern2 匹配的第一个子串。
  • match2.group(0):获取整个匹配的子串(电话号码)。
  • print(f’Matched phone number: {match2.group(0)}'):打印匹配的电话号码。
  1. 假设我们有一个字符串,包含一些重复的单词,我们想找到这些重复的单词
import retext = "This is a test test of repeated repeated words words."
pattern = r'\b(\w+)\b\s+\1\b'matches = re.findall(pattern, text, re.IGNORECASE)
if matches:print(f'Repeated words: {matches}')# 输出结果
Repeated words: ['test', 'repeated', 'words']
  • text3:输入字符串,包含重复的单词。
  • pattern3:正则表达式模式,用于匹配重复的单词。
    • \b:单词边界。
    • (\w+):匹配一个或多个字母或数字,并将其捕获为第一个组。
    • \b:单词边界。
    • \s+:匹配一个或多个空白字符。
    • \1:反向引用第一个捕获组,确保匹配的单词相同。
    • \b:单词边界。
  • re.findall(pattern3, text3, re.IGNORECASE):在 text3 中查找所有与 pattern3 匹配的子串,忽略大小写。
  • matches3:包含所有匹配的重复单词。
  • print(f’Repeated words: {matches3}'):打印所有重复的单词。
  1. 假设我们有一个字符串,包含一些日期格式,如 “2023-10-01”,我们想分别捕获年、月和日,并使用命名组
import retext = "Today's date is 2023-10-01."
pattern = r'(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})'match = re.search(pattern, text)
if match:year = match.group('year')month = match.group('month')day = match.group('day')print(f'Year: {year}, Month: {month}, Day: {day}')# 输出结果Year: 2023, Month: 10, Day: 01
  • text4:输入字符串,包含日期。
  • pattern4:正则表达式模式,用于匹配日期格式。
    • (?P\d{4}):匹配四位数字(年份),并将其捕获为名为 year 的组。
    • (?P\d{2}):匹配两位数字(月份),并将其捕获为名为 month 的组。
    • (?P\d{2}):匹配两位数字(日期),并将其捕获为名为 day 的组。
  • re.search(pattern4, text4):在 text4 中搜索与 pattern4 匹配的第一个子串。
  • match4.group(‘year’):获取名为 year 的捕获组。
  • match4.group(‘month’):获取名为 month 的捕获组。
  • match4.group(‘day’):获取名为 day 的捕获组。
  • print(f’Year: {year}, Month: {month}, Day: {day}'):打印捕获的年、月、日。

总结:

  1. 捕获组:使用 () 定义,可以捕获匹配的部分
  2. 非捕获组:使用 (?:…) 定义,仅用于分组和逻辑处理
  3. 反向引用:使用 \n 引用第 n 个捕获组
  4. 命名组:使用 (?P…) 定义,可以按名称引用捕获组

七、正则表达式之贪婪与非贪婪

贪婪匹配

默认情况下,大多数量词都是贪婪的,这意味着它们会尽可能多地匹配字符。例如:

  • *:匹配前面的表达式零次或多次
  • +:匹配前面的表达式一次或多次
  • ?:匹配前面的表达式零次或一次
  • {m,n}:匹配前面的表达式至少 m 次,最多 n 次

假设我们有一个字符串,包含一些 HTML 标签,我们想提取标签内的内容

import retext = '<div>Hello</div><div>World</div>'
pattern = r'<div>(.*)</div>'matches = re.findall(pattern, text)
print(matches)  # 输出结果
['Hello</div><div>World']

在这个例子中,.* 是贪婪的,它会尽可能多地匹配字符,因此匹配结果是从第一个 < div>到最后一个< /div>之间的所有内容

非贪婪匹配

非贪婪匹配(也称为懒惰匹配)是指量词会尽可能少地匹配字符。非贪婪匹配可以通过在量词后面加上 ? 来实现。例如:

  • *?:匹配前面的表达式零次或多次,但尽可能少地匹配
  • +?:匹配前面的表达式一次或多次,但尽可能少地匹配
  • ??:匹配前面的表达式零次或一次,但尽可能少地匹配
  • {m,n}?:匹配前面的表达式至少 m 次,最多 n 次,但尽可能少地匹配
import retext = '<div>Hello</div><div>World</div>'
pattern = r'<div>(.*?)</div>'matches = re.findall(pattern, text)
print(matches)  # 输出结果: 
['Hello', 'World']

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/476164.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV与AI深度学习|16个含源码和数据集的计算机视觉实战项目(建议收藏!)

本文来源公众号“OpenCV与AI深度学习”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;分享&#xff5c;16个含源码和数据集的计算机视觉实战项目 本文将分享16个含源码和数据集的计算机视觉实战项目。具体包括&#xff1a; 1. 人…

Kafka 工作流程解析:从 Broker 工作原理、节点的服役、退役、副本的生成到数据存储与读写优化

Kafka&#xff1a;分布式消息系统的核心原理与安装部署-CSDN博客 自定义 Kafka 脚本 kf-use.sh 的解析与功能与应用示例-CSDN博客 Kafka 生产者全面解析&#xff1a;从基础原理到高级实践-CSDN博客 Kafka 生产者优化与数据处理经验-CSDN博客 Kafka 工作流程解析&#xff1a…

HarmonyOs鸿蒙开发实战(17)=>沉浸式效果第二种方案一组件安全区方案

1.沉浸式效果的目的 开发应用沉浸式效果主要指通过调整状态栏、应用界面和导航条的显示效果来减少状态栏导航条等系统界面的突兀感&#xff0c;从而使用户获得最佳的UI体验。 2.组件安全区方案介绍 应用在默认情况下窗口背景绘制范围是全屏&#xff0c;但UI元素被限制在安全区内…

五天SpringCloud计划——DAY1之mybatis-plus的使用

一、引言 咱也不知道为啥SpringCloud课程会先教mybatis-plus的使用&#xff0c;但是教都教了&#xff0c;就学了吧&#xff0c;学完之后觉得mybatis-plus中的一些方法还是很好用了&#xff0c;本文作为我学习mybatis-plus的总结提升&#xff0c;希望大家看完之后也可以熟悉myba…

Matlab 答题卡方案

在现代教育事业的飞速发展中&#xff0c;考试已经成为现代教育事业中最公平的方式方法&#xff0c;而且也是衡量教与学的唯一方法。通过考试成绩的好与坏&#xff0c;老师和家长可以分析出学生掌握的知识多少和学习情况。从而老师可以了解到自己教学中的不足来改进教学的方式方…

丹摩|丹摩助力selenium实现大麦网抢票

丹摩&#xff5c;丹摩助力selenium实现大麦网抢票 声明&#xff1a;非广告&#xff0c;为用户体验 1.引言 在人工智能飞速发展的今天&#xff0c;丹摩智算平台&#xff08;DAMODEL&#xff09;以其卓越的AI算力服务脱颖而出&#xff0c;为开发者提供了一个简化AI开发流程的强…

【生成数据集EXCEL文件】使用生成对抗网络GAN生成数据集:输出生成数据集EXCEL

本文采用MATLAB编程&#xff0c;使用生成对抗网络GAN生成数据集&#xff1a;输出生成数据集EXCEL格式文件&#xff0c;方便大家使用。 实际工程应用中&#xff0c;由于经济成本和人力成本的限制&#xff0c;获取大量典型的有标签的数据变得极具挑战&#xff0c;造成了训练样本…

cocos creator 3.8 一些简单的操作技巧,材质的创建 1

这是一个飞机的3D模型与贴图 导入到cocos中&#xff0c;法线模型文件中已经包含了mesh、material、prefab&#xff0c;也就是模型、材质与预制。界面上创建一个空节点Plane&#xff0c;将模型直接拖入到Plane下。新建材质如图下 Effect属性选择builtin-unlit&#xff0c;不需…

手机领夹麦克风哪个牌子好,哪种领夹麦性价比高,热门麦克风推荐

​在如今这个科技飞速发展的时代&#xff0c;麦克风的选择成了很多人关心的问题&#xff0c;特别是无线麦克风该怎么选呢&#xff1f;向我咨询麦克风选购事宜的人可不在少数。要是你只是想简单自娱自乐一下&#xff0c;其实真没必要大费周章&#xff0c;直接用手机自带的麦克风…

【功能实现】bilibili顶部鼠标跟随效果怎么实现?

我们在电脑端打开b站首页时&#xff0c;总会被顶部【鼠标跟随】的效果所吸引&#xff0c;那他是如何实现的&#xff0c;来研究一下。 b站效果&#xff1a; 分析&#xff1a; 1.监听鼠标的位置&#xff0c;当悬浮到该模块时&#xff0c;图片会随鼠标移动 2.引入图片的样式是动…

WebStorm 安装配置(详细教程)

文章目录 一、简介二、优势三、下载四、安装4.1 开始安装4.2 选择安装路径4.3 安装选项4.4 选择开始菜单文件夹4.5 安装完成 五、常用插件5.1 括号插件&#xff08;Rainbow Brackets&#xff09;5.2 翻译插件&#xff08;Translation&#xff09;5.3 代码缩略图&#xff08;Cod…

[C++]:C++11(三)

1. 可变参数模版 1.1 概念 可变参数模板允许我们定义能接受可变数目模板参数的模板。简单来说&#xff0c;就好比一个函数可以接受任意个数的实际参数一样&#xff0c;可变参数模板能应对不同数量的模板参数情况。比如&#xff0c;我们可以有一个模板类或者模板函数&#xff…

【Nginx从入门到精通】05-安装部署-虚拟机不能上网简单排错

文章目录 总结1、排查步骤 一、排查&#xff1a;Vmware网关二、排查&#xff1a;ipStage 1 &#xff1a;ping 127.0.0.1Stage 2 &#xff1a;ping 宿主机ipStage 3 &#xff1a;ping 网关 失败原因解决方案Stage 4 &#xff1a;ping qq.com 总结 1、排查步骤 Vmware中网关是否…

InstantStyle容器构建指南

一、介绍 InstantStyle 是一个由小红书的 InstantX 团队开发并推出的图像风格迁移框架&#xff0c;它专注于解决图像生成中的风格化问题&#xff0c;旨在生成与参考图像风格一致的图像。以下是关于 InstantStyle 的详细介绍&#xff1a; 1.技术特点 风格与内容的有效分离 &a…

卷积神经网络各层介绍

目录 1 卷积层 2 BN层 3 激活层 3.1 ReLU&#xff08;Rectified Linear Unit&#xff09; 3.2 sigmoid 3.3 tanh&#xff08;双曲正切&#xff09; 3.4 Softmax 4 池化层 5 全连接层 6 模型例子 1 卷积层 卷积是使用一个卷积核&#xff08;滤波器&#xff09;对矩阵进…

Elastic 和 Red Hat:加速公共部门 AI 和机器学习计划

作者&#xff1a;来自 Elastic Michael Smith 随着公共部门组织适应数据的指数级增长&#xff0c;迫切需要强大、适应性强的解决方案来管理和处理大型复杂数据集。人工智能 (Artificial intelligence - AI) 和机器学习 (machine learning - ML) 已成为政府机构将数据转化为可操…

SAP B1 登陆报错解决方案 - 系统架构目录服务器选择

背景 登录时出现如下报错&#xff0c;报错显示为【系统架构目录服务器选择】 强行登录会发现过往账套都不见了 出现原因 出于各种原因在开机时没有把 SAP 所有的服务成功启动&#xff08;上一次启动科学上网后全局代理没关干净之类的&#xff09;。 解决方案 关机几分钟重启…

基于深度卷积神经网络(CNN)模型的图像着色研究与应用系统实现

1.摘要 许多历史照片都是黑白的&#xff0c;通过颜色化可以恢复这些照片的历史感和真实感&#xff0c;使人们更好地理解和感受历史事件。随着深度学习技术的发展&#xff0c;特别是卷积神经网络和自监督学习的兴起&#xff0c;研究人员提出了新的方法来解决这些问题。通过将颜色…

【CVE-2024-9413】SCP-Firmware漏洞:安全通告

安全之安全(security)博客目录导读 目录 一、概述 二、修订历史 三、CVE根因分析 四、问题修复解决 一、概述 在SCP固件中发现了一个漏洞&#xff0c;如果利用该漏洞&#xff0c;可能会允许应用处理器&#xff08;AP&#xff09;在系统控制处理器&#xff08;SCP&#xf…

Oracle 19C 安装RAC磁盘投票失败

ORACLE 19C 安装RAC第二个节点报错&#xff0c;没有找到足够的 voting 文件&#xff08;投票磁盘&#xff09; 1、磁盘投票失败分析 1.1、02节点报错日志 CRS-4123: Starting Oracle High Availability Services-managed resources CRS-2672: Attempting to start ora.mdnsd…