正则表达式的使用

1、正则表达式-教程

  正则表达式:文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为元字符)。

  正则表达式使用单个字符串来描述,匹配一系列匹配某个句法规则的字符串。

2、正则表达式-语法

  正则表达式描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符(例如字符a-z)以及特殊字符(称为“元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

2.1普通字符

  普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字符、所有数字、所有标点符号和一些其他符号。

 

2.2 非打印字符

  非打印字符也可以是正则表达式的组成部分。下列列出了表示非打印字符的转义序列:

字符

描述

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。

x的值必须为A-Z或a-z之一。

\f

匹配一个换页符。=\x0c或=\cL

\n

匹配一个换行符。=\x0a或\cJ

\r

匹配一个回车符。=\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

2.3 特殊字符

  特殊字符,就是有一些特殊含义字符。

特别字符

描述

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

()

标记一个子表达式的开始和结束位置。

*

匹配前面的子表达式0或多次。如果要匹配本身,需要进行转义,使用\*

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

[

标记一个中括号表达式的开始。要匹配[,使用\[

?

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

{

标记限定符表达式的开始。要匹配{,使用\{

|

指明两项之间的一个选择。要匹配|,请使用\|


2.4 限定符

  限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。正则表达式中的几种重复模式。

正则表达式的限定符有:

字符(语法)

描述(说明)

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。

匹配前面的子表达式0或1次。

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

{n,m}

m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。

*、+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有它们的后面加上一个?就可以实现非贪婪或最小匹配。

贪婪:下面的表达式匹配从开始小于符号(<)到关闭大于符号(>)之间的所有内容。

比如:<h1>RUNOOB-菜鸟教程</h1>

/<.*>/ 

非贪婪:如果您只需要匹配开始和结束h1标签,下面的非贪婪表达式只匹配<h1>。

/<.*?>/ 

2.5定位符

定位符能使正则表达式固定到行首或行尾。定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。

字符

描述

^

匹配输入字符串开始的位置。

$

匹配输入字符串结尾的位置。

\b

匹配一个单词边界,即字与空格间的位置。

\B

非单词边界匹配。比如chapter和aptitude,apt出现在单词chapter中的非单词边界处,但出现在单词aptitude中的单词边界处。

注意:不能将限定符与定位符一起使用。由于在紧靠换行或单词边界的前面或后面不能有一个以上位置,因为不允许诸如^*之类的表达式。

选择:用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。

其中?:是非捕获元之一,还有两个非捕获元是?=和?!。

?=:正向预查,在任何开始匹配圆括号内的正则表达式的位置来匹配搜索字符串。

?!:负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

反向引用:对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式中从左到右出现的顺序存储。缓冲区编号从1开始,最多可存储99个捕获的子表达式。

可以使用非捕获元字符?:,?=;?!来重写捕获,忽略对相关匹配的保存。

比如例子1:Is is the cost of of gasoline going up up?

该正则表达式:/\b([a-z]+) \1\b/ig   #[a-z]+ 表示1个或多个字母。\1指定第一个子匹配项。g表示全局变量,i忽略大小写。

例子2:要匹配taobao taobao ,home home这样的情况如何处理?

正则表达式:\b(\w+)\b\s+\1\b

正则表达式给匹配项命名:\b(?<Word>\w+)\b\s+\k<Word>\b

                

 

3、正则表达式-元字符

字符

描述

\

将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符。例如n 匹配字符n,\n匹配换行符。匹配\,使用\\;匹配(,使用\(

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

当该字符紧跟在任何一个其他限制符(*、+、?、{n}、{n,}、{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如对于字符串"oooo",'0+?'将匹配单个"o","o+"将匹配所有'o'.

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

(pattern)

匹配pattern并获取这一匹配。

(?:pattern)

匹配pattern但不获取这一匹配,即这是一个非获取匹配,不进行存储供以后使用。比如'industr(?:y|ies)就是一个比'industry|industries'更简单的表达式。

(?=pattern)

正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。非获取匹配,该匹配不需要获取供以后使用。比如“windows(?=95|98|NT|2000)”能匹配windows2000中的windows,但不能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)

正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。非获取匹配,也就是说,该匹配不需要获取供以后使用。比如“windows(?!95|98|NT|2000)”不能匹配windows2000中的windows,但能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?<=pattern)

反向(look behind)肯定预查,与正向肯定预查方向相反。比如“(?<=95|98|NT|2000)windows”能匹配2000windows中的windows,但不能匹配3.1windows中的windows.

(?<!parttern)

反向(look behind)否定预查,与正向否定预查方向相反。比如“(?<!95|98|NT|2000)windows”不能匹配2000windows中的windows,但能匹配3.1windows中的windows.

x|y

匹配x或y。比如,'z|food'能匹配'z'或'food'。‘(z|f)ood’则匹配"zood"或"food".

[xyz]

字符集合。匹配所包含的任意一个字符。比如'[abc]'可以匹配'plain'中的'a'.

[^xyz]

负值字符集合。匹配未包含的任意字符,例如'[^abc]'可以匹配’plain'中的‘p’、'l'、'i'、'n'.

[a-z]

字符范围。匹配指定范围内的任意字符。例如'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。

[^a-z}

负值字符范围。匹配任何不在指定范围内的任意字符。例如'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意小写字符。

\b

匹配一个单词边界,即字与空格间的位置。例如,'er\b'可以匹配"never"中的"er",但不能匹配"verb"中的"er"

\B

匹配非单词边界。例如,'er\B'不可以匹配"never"中的"er",但能匹配"verb"中的"er"

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。

\d

匹配一个数字字符。等价于[0-9]

\D

匹配一个非数字字符。等价于[^0-9]

\f

匹配一个换页符。等价于\x0c和=\cL

\n

匹配一个换行符。等价于\x0a或\cJ

\r

匹配一个回车符。等价于\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

\w

匹配字母、数字、下划线。等价于[A-Za-z0-9_]

\W

匹配非字母、数字、下划线。等价于[^A-Za-z0-9_]

\xn

匹配n,其中n为十六进制转义值。例如'\x41'匹配“A”。'\x041'则等价于‘\x04' & '1'.

\num

匹配num.

\n

标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。

\nm

标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

\nml

如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

\un

匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

其中零宽断言:

?=exp 零宽度正预测先行断言,自身出现的位置的后面能匹配表达式exp。

比如:I’m singing while you’re dancing.

正则表达式:\b\w+(?=ing\b)

?<=exp 零宽度正向顾后发断言,自身出现的位置的前面能匹配表达式exp.

比如:reading a book

正则表达式:(?<=\bre)\w+\b

负向零宽断言:

查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u。

正则表达式:\b\w*q[^u]\w*\b,存在一个问题,[^u]占位的问题。

?!=exp 负向零宽断言:\b\w*q(?!u)\w*\b 并不消费任何字符

\d{3}(?!\d)匹配3位数字,而且这3位数字的后面不能是数字。

\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

?<! 零宽度负回顾后发断言。

(?<![a-z])\d{7} 匹配前面不是小写字母的七位数字。

4、正则表达式-运算符优先级

正则表达式从左到右进行计算,并遵循优先级顺序,与算数表达式类似。

相同优先级的从左到右进行计算,不同优先级的运算先高后低。

运算符

描述

\

转义符

(),(?:),(?=),[]

圆括号和方括号

*,+,?,{n},{n,},{n,m}

限定符

^,$,\任意元字符,任意字符

定点位和序列(即:位置和顺序)

|

替换,“或”操作,字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food"。如要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood"

5、正则表达式-匹配规则

5.1 基本模式匹配

模式:正则表达式最基本的元素,它们是一组描述字符串特征的字符。比如:

^once 包含了特殊字符^,表示开头,表示该模式只匹配以once开头的字符串。匹配”once upon a time”,不匹配”There once was a man from NewYork”.

bucket$ ,$符号用来匹配那些以给定模式结尾的字符串。匹配”who kept all of this cash in a bucket”,不匹配buckets.

^bucket$ 同时使用^和$,表示精确匹配.

5.2 字符簇

字符簇:描述我们要的模式的方法。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:[AaEeIiOoUu].

[a-z] //匹配所有的小写字母

[A-Z] //匹配所有的大写字母

[a-zA-Z]   //匹配所有的字母

[0-9] ==\d //匹配所有的数字

[a-z0-9A-Z_]==\w  //匹配所有的字母、数字、下划线

[0-9\.\-]   //匹配所有的数字,句号和减号

[ \f\r\t\n]   //匹配所有的白字符

6 正则表达式-示例

6.1 简单表达式

正则表达式最简单形式实在搜索字符串中匹配其本身的单个普通字符。例如,单字符模式,同事也可以将血多单字符组合起来以形成大的表达式。(不需要串联运算符,只需要在一个字符后面键入另一个字符)

/a/

/7/

/M/

/a7M/

6.2 字符匹配

句点(.)匹配字符串中的各种打印或非打印字符,只有一个字符例外(换行符\n)。比如aac、abc、acc、adc、a1c、a2c、a-c、a#c。

/a.c/

6.3 中括号表达式

若要创建匹配字符组的一个列表,请在方括号([和])内放置一个或更多单个字符。当字符括在中括号内时,该列表称为”中括号表达式”。

比如Chapter1、Chapter2、Chapter3、Chapter4、Chapter5。

如上用正则表达式为:/Chapter [12345]/   或者/Chapter [1-5]/

6.4 替换和分组

替换使用|字符来语序在两个或多个替换选项之间进行选择。例如,可以扩展章节标题正则表达式,以返回比章节标题更广的匹配项。

比如:/^Chapter|Section [1-9][0-9]{0,1}$/

该表达式要么匹配行首的Chapter,要么匹配行尾的单词Section及跟在其后的任何数字。

比如:/^(Chapter|Section) [1-9][0-9]{0,1}$/

该表达式周围的括号捕获两个匹配字中的任一个供以后使用。

分组将子表达式进行做成子集,使用()进行分组,方便对match的字符串进行划分。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/82715.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

A2C原理和代码实现

参考王树森《深度强化学习》课程和书籍 1、A2C原理&#xff1a; Observe a transition&#xff1a; ( s t , a t , r t , s t 1 ) (s_t,{a_t},r_t,s_{t1}) (st​,at​,rt​,st1​) TD target: y t r t γ ⋅ v ( s t 1 ; w ) . y_{t} r_{t}\gamma\cdot v(s_{t1};\mathbf…

如何在Spring MVC中使用@ControllerAdvice创建全局异常处理器

文章目录 前言一、认识注解&#xff1a;RestControllerAdvice和ExceptionHandler二、使用步骤1、封装统一返回结果类2、自定义异常类封装3、定义全局异常处理类4、测试 总结 前言 全局异常处理器是一种 &#x1f31f;✨机制&#xff0c;用于处理应用程序中发生的异常&#xff…

ROS入门核心教材重要节选

ROS核心教程 1、文件系统 使用下述命令查看包 rospack ros pack(age&#xff09; 如rospack find roscpp roscd ros cd 如roscd roscpp rosls ros ls 如rosls roscpp2、ROS节点 节点可以理解为人工定义一个机器人模块&#xff0c;然后抽象成可执行文件。 rosnode li…

TCP的四次挥手与TCP状态转换

文章目录 四次挥手场景步骤TCP状态转换 四次挥手场景 TCP客户端与服务器断开连接的时候&#xff0c;在程序中使用close()函数&#xff0c;会使用TCP协议四次挥手。 客户端和服务端都可以主动发起。 因TCP连接时候是双向的&#xff0c;所以断开的时候也是双向的。 步骤 三次…

LabVIEW开发3D颈动脉图像边缘检测

LabVIEW开发3D颈动脉图像边缘检测 近年来&#xff0c;超声图像在医学领域对疾病诊断具有重要意义。边缘检测是图像处理技术的重要组成部分。边缘包含图像信息。边缘检测的主要目的是根据强度和纹理等属性识别图像中均匀区域的边界。超声&#xff08;US&#xff09;图像存在视觉…

vue项目实战-脑图编辑管理系统kitymind百度脑图

前言 项目为前端vue项目&#xff0c;把kitymind百度脑图整合到前端vue项目中&#xff0c;显示了脑图的绘制&#xff0c;编辑&#xff0c;到处为json&#xff0c;png&#xff0c;text等格式的功能 文章末尾有相关的代码链接&#xff0c;代码只包含前端项目&#xff0c;在原始的…

微服务与Nacos概述

微服务概述 软件架构的演变&#xff1a;单体架构、垂直应用架构、流式计算架构 SOA、微服务架构和服务网格。 微服务是一种软件开发架构&#xff0c;它将一个大型应用程序拆分为一系列小型、独立的服务。每个服务都可以独立开发、部署和扩展&#xff0c;并通过轻量级的通信机…

事务,不只ACID | 京东物流技术团队

1. 什么是事务&#xff1f; 应用在运行时可能会发生数据库、硬件的故障&#xff0c;应用与数据库的网络连接断开或多个客户端端并发修改数据导致预期之外的数据覆盖问题&#xff0c;为了提高应用的可靠性和数据的一致性&#xff0c;事务应运而生。 从概念上讲&#xff0c;事务…

开发中常用的数据库日志都长啥样呢?

目录 常见日志级别 数据库日志 Undo log 逻辑日志 redolog binlog 慢查询日志 AOF 文本文件 RDB 二进制文件 常见日志级别 DEBUG&#xff1a;用于详细记录应用程序的运行过程&#xff0c;如变量值、执行流程等。DEBUG级别的日志通常用于开发和调试过程中&#xff0c;以…

[保研/考研机试] 约瑟夫问题No.2 C++实现

题目要求&#xff1a; 输入、输出样例&#xff1a; 源代码&#xff1a; #include<iostream> #include<queue> #include<vector> using namespace std;//例题5.2 约瑟夫问题No.2 int main() {int n, p, m;while (cin >> n >> p >> m) {//如…

业务中如何过滤敏感词

在我们访问网站的时候&#xff0c;如果发现我们发布的内容有色情暴力的东西等等&#xff0c;会屏蔽掉&#xff0c;这种行为就是过滤敏感词。 从技术层面实现起来&#xff0c;其实比较简单&#xff0c;因为我们输入的内容就是一个大型的字符串&#xff0c;我们要调用某些api来判…

ESP32开发阶段启用 Secure Boot 与 Flash encryption

Secure Boot 与 Flash encryption详情 请参考&#xff1a;https://blog.csdn.net/espressif/article/details/79362094 1、开发环境 AT版本&#xff1a;2.4.0.0 发布IDF 与 python&#xff1a; idf4.3_py3.10_env系统&#xff1a;虚拟机 ubuntu 20 2、使能 secure boot 和 …

【动态规划刷题 6】 删除并获得点数 粉刷房子

740. 删除并获得点数 给你一个整数数组 nums &#xff0c;你可以对它进行一些操作。 每次操作中&#xff0c;选择任意一个 nums[i] &#xff0c;删除它并获得 nums[i] 的点数。之后&#xff0c;你必须删除 所有 等于 nums[i] - 1 和 nums[i] 1 的元素。 开始你拥有 0 个点数。…

list模拟实现【引入反向迭代器】

文章目录 1.适配器1.1传统意义上的适配器1.2语言里的适配器1.3理解 2.list模拟实现【注意看反向迭代器】2.1 list_frame.h2.2riterator.h2.3list.h2.4 vector.h2.5test.cpp 3.反向迭代器的应用1.使用要求2.迭代器的分类 1.适配器 1.1传统意义上的适配器 1.2语言里的适配器 容…

实现链式队列

dl.h dl.c main.c 结果

BM5 合并k个已排序的链表 javascript

描述 合并 k 个升序的链表并将结果作为一个升序的链表返回其头节点。 数据范围&#xff1a; 示例1 输入&#xff1a; [{1,2,3},{4,5,6,7}] 返回值&#xff1a; {1,2,3,4,5,6,7}示例2 输入&#xff1a; [{1,2},{1,4,5},{6}] 返回值&#xff1a; {1,1,2,4,5,6}解题思路 利用两个…

RabbitMQ 发布确认机制

发布确认模式是避免消息由生产者到RabbitMQ消息丢失的一种手段 发布确认模式 原理说明实现方式开启confirm&#xff08;确认&#xff09;模式阻塞确认异步确认 总结 原理说明 生产者通过调用channel.confirmSelect方法将信道设置为confirm模式&#xff0c;之后RabbitMQ会返回Co…

spring 面试题

一、Spring面试题 专题部分 1.1、什么是spring? Spring是一个轻量级Java开发框架&#xff0c;最早有Rod Johnson创建&#xff0c;目的是为了解决企业级应用开发的业务逻辑层和其他各层的耦合问题。它是一个分层的JavaSE/JavaEE full-stack&#xff08;一站式&#xff09;轻量…

Unity之ShaderGraph 节点介绍 Utility节点

Utility 逻辑All&#xff08;所有分量都不为零&#xff0c;返回 true&#xff09;Any&#xff08;任何分量不为零&#xff0c;返回 true&#xff09;And&#xff08;A 和 B 均为 true&#xff09;Branch&#xff08;动态分支&#xff09;Comparison&#xff08;两个输入值 A 和…

未来C#上位机软件发展趋势

C#上位机软件迎来新的发展机遇。随着工业自动化的快速发展&#xff0c;C#作为一种流行的编程语言在上位机软件领域发挥着重要作用。未来&#xff0c;C#上位机软件可能会朝着以下几个方向发展&#xff1a; 1.智能化&#xff1a;随着人工智能技术的不断演进&#xff0c;C#上位机…