30分钟学会正则表达式

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

作用

匹配查看一个字符串是否符合正则表达式的语法
搜索正则表达式来提取字符串中符合要求的文本
替换查找字符串中符合正则表达式的文本，并用相应的字符串替换
分割使用正则表达式对字符串进行分割。

案例

原始内容：姓名：lilei手机号：13888888888邮箱：lilei@qq.com匹配正则：姓名：(\w+)\n手机号：(1[3-9]\d{9})\n邮箱：([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

无需对正则表达式心怀恐惧，接下来将逐步为您阐释，待阅读完毕，您定会茅塞顿开。

字符类

字符类是匹配一个或多个的字符

在上面的例子中：

姓名：(\w+)\n手机号：(1[3-9]\d{9})\n邮箱：([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

标记的都是字符类，下面是字符类的一些说明

1. . 匹配除 "\n" 之外的任何单个字符。要匹配	包括 '\n'在内的任何字符，请使用 '[.\n]' 的模式。
2. \d 匹配一个数字字符。等价于 [0-9]。
3. \D 匹配一个非数字字符。等价于 [^0-9]。
4. \s 匹配任何空白字符，包括空格、制表符、	换页符等等。等价于[ \f\n\r\t\v]。
5. \S 匹配任何非空白字符。等价于 	[^\f\n\r\t\v]。
6. \w 匹配包括下划线的任何单词字符。等价于	'[A-Za-z0-9_]'。
7. \W 匹配任何非单词字符。等价于	 '[^A-Za-z0-9_]'。[]用法
[Pp]ython	匹配 "Python" 或 "python"
ub[ye]		匹配 "ruby" 或 "rube"
[aeiou]		匹配中括号内的任意一个字母
[0-9]	    匹配任何数字。类似于 [0123456789]
[a-z]       匹配任何小写字母
[A-Z]	    匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	            匹配除了数字外的字符字符类内部，
除了\之外，其他特殊字符不再具备特殊意义，都表示字面值。
^放在第一个位置表示否定，
放在其他位置表示^本身，
-放在中间表示范围，放在字符类中的第一个字符，则表示-本身。

量词

正则表达式量词是用来修饰字符类的数量

在上面的例子中：

姓名：(\w+)\n手机号：(1[3-9]\d{9})\n邮箱：([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

这些都是修饰前一个字符类的数量，下面是量词的一些说明

1. ?	匹配前面的字符0次或1次
2. *	匹配前面的字符0次或多次
3. +	匹配前面的字符1次或者多次
4. {m}	匹配前面表达式m次
5. {m,}	匹配前面表达式至少m次
6. {,n}	匹配前面的正则表达式最多n次
7. {m,n}	匹配前面的正则表达式至少m次，最多n次注意点：以上量词都是贪婪模式，会尽可能多的匹配，如果要改为非贪婪模式，通过在量词后面跟随一个?来实现

分组与捕获

分组是用圆括号“()”括起来的正则表达式，匹配出的内容就表示一个分组。

分组和捕获在正则表达式中有着密切的联系，一般情况下，分组即捕获，都用小括号完成：

(exp) ：分组，并捕获该分组匹配到的文本
(?:exp) ：分组，但不捕获该分组匹配到的文本，可以理解为数学里小括号的作用，可以在后面使用量词或管道符

什么是捕获呢？使用小括号指定一个子表达式后，子表达式匹配的文本（即匹配的内容）可以在其他子表达式中重复使用。

简单来说就是：对需要的内容作一个标记，在搜索或替换时，可以快捷引用

在上面的例子中：

姓名：(\w+)\n手机号：(1[3-9]\d{9})\n邮箱：([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

有三个分组，分别是分组1，分组2，分组3，从1开始

搜索时，可以快捷提取分组的内容

替换时，可以捕获（引用）分组内容进行替换

原始内容：姓名：lilei手机号：13888888888邮箱：lilei@qq.com
匹配正则：姓名：(\w+)\n手机号：(1[3-9]\d{9})\n邮箱：([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)
替换正则：$1的邮箱是：$3， 电话是：$2
替换后：lilei的邮箱是：lilei@qq.com， 电话是：13888888888

字符	功能
(ab)	将括号中正则表达式作为⼀个分组
\num 或 $num	引⽤分组序号匹配到的字符串，在不同的编程语言中会不所不同
(?P<name>)	分组起别名，这个不常用可以忽略
(?P=name)	引⽤别名为name分组匹配到的字符串

捕获（引用）内容

１. 通过组号捕获（引用）

每一个没有使用?:的小括号都会分配一个组合，从1开始，从左到右递增，可以通过\i引用前面()内表达式捕获的内容（\i 的内容是值与前面一致，并不是表达式一致）

２．通过组名捕获（引用）

可以通过在左括号后面跟随?P<name>,尖括号中放入组名来为一个组起一个别名，后面通过(?P=name)来引用前面捕获的内容。如(?P<word>\w+)\s+(?P=word)来匹配重复的单词。（这里引用前面内容，并不是正则表达式）

(?P<word>\w+)\s+（(?P=word)）如果引用的内容也需要分组，则外面再加一个括号

注意点：反向引用不能放在字符类[]中使用。

贪婪模式与非贪婪模式

贪婪模式：总是尝试匹配尽可能多的字符。

非贪婪模式，总是尝试匹配尽可能少的字符。

默认是贪婪模式，在量词后面加上？，就变成贪婪模式

在上面的案例中，没有体现，这里单独给个案例来说明

原始字符：<div>test1</div><div>test2</div>
匹配正则：贪婪模式<div>.*</div>
结果：匹配数量：1匹配结果： <div>test1</div><div>test2</div>匹配正则：非贪婪模式<div>.*?</div>
结果：匹配数量：2匹配结果： <div>test1</div><div>test2</div>

断言

断言不会匹配任何文本，只是对断言所在的文本施加某些约束

1. \b	匹配单词的边界，放在字符类[]中则表示backspace 　　　　　　2. \B 匹配非单词边界，受ASCII标记影响 　　　　　　3. \A 　指定匹配必须出现在字符串的开头（忽略Multiline选项）。　4. \Z 指定匹配必须出现在字符串的结尾或字符串结尾的\ n之前（忽略Multiline选项）。　　　5. ^	在起始处匹配，如果有MULTILINE标志，则在每个换行符后匹配 　　　　　　　　　6. $	在结尾处匹配，如果有MULTILINE标志，则在每个换行符前匹配 　　零宽断言7. (?=exp)	也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。　　　8. (?<=exp)	也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。负向零宽断言9. (?!e)	零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。　　　　　　10.(?<!e)	零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：

这里以^和$来说明，^和$分别代表的是起始位置和结束位置，不会匹配任务字符

验证用户名格式
假设要求用户名只能由字母开头，后面可以跟字母、数字或下划线，且长度在 3 到 16 位之间。
正则表达式：^[a-zA-Z][a-zA-Z0-9_]{2,15}$
解释：
^ 表示匹配字符串的开头，确保用户名是以字母开头。
[a-zA-Z] 匹配单个字母（大写或小写）。
[a-zA-Z0-9_]{2,15} 表示后面可以跟 2 到 15 个字母、数字或下划线。
$ 表示匹配字符串的结尾，确保整个用户名符合规定的长度和字符组成。(?=exp) 和(?<=exp)的案例
提取文件名中的编号（文件命名有一定规则）：
假设文件命名格式为 “文件_编号.txt”，如 “报告_001.txt”，我们想提取编号部分。
可以使用正则表达式(?<=\_)[0-9]{3}(?=\.txt)。
解释：(?<=\_)是正向肯定回顾，表示在当前位置之前（但不包括当前位置）必须有一个 “_” 字符。[0-9]{3}匹配 3 个数字，(?=\.txt)是正向肯定预查，表示在当前位置之后（但不包括当前位置）必须有一个 “.txt”。

修饰符（标记）

标记也称为修饰符，正则表达式的标记用于指定额外的匹配策略。

标记不写在正则表达式里，标记位于表达式之外。

修饰符	含义	描述
i	ignore - 不区分大小写	将匹配设置为不区分大小写，搜索时不区分大小写: A 和 a 没有区别。
g	global - 全局匹配	查找所有的匹配项。
m	multi line - 多行匹配	使边界字符 ^ 和 $ 匹配每一行的开头和结尾，记住是多行，而不是整个字符串的开头和结尾。
s	特殊字符圆点 . 中包含换行符 \n	默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符，加上 s 修饰符之后, . 中包含换行符 \n。