正则表达式,又称正规表示法、常规表示法(Regular Expression,在代码中常简写为regex、regexp或RE),是一种用于匹配和处理文本的强大工具,它使用特定的字符和符号组合来描述文本模式。以下是关于正则表达式的基本介绍和使用方法:
基本概念
- 字符类:用方括号
[]
表示,用于匹配方括号内的任意一个字符。例如,[abc]
可以匹配a
、b
或c
中的任意一个字符。 - 元字符:具有特殊含义的字符。例如
^
表示匹配字符串的开始位置,$
表示匹配字符串的结束位置。如果在字符类中使用^
,则表示取反,如[^abc]
表示匹配除了a
、b
、c
之外的任意字符。 - 量词:用于指定前面的字符或字符组出现的次数。例如,
*
表示匹配前面的字符或字符组零次或多次,+
表示匹配前面的字符或字符组一次或多次,?
表示匹配前面的字符或字符组零次或一次。{n}
表示恰好匹配n
次,{n,}
表示至少匹配n
次,{n,m}
表示匹配n
到m
次。 - 转义字符:反斜杠
\
用于转义特殊字符,使其失去特殊含义,仅仅表示字符本身。例如,\.
表示匹配实际的点号字符,而不是元字符的点号。
常用操作
- 匹配:检查一个字符串是否符合某个正则表达式定义的模式。例如,判断一个字符串是否是合法的邮箱地址,可以使用正则表达式
^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$
。在Python中,可以使用re
模块的match()
函数来进行匹配操作,示例代码如下:
import repattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
string = 'test@example.com'
match = re.match(pattern, string)
if match:print('匹配成功')
else:print('匹配失败')
- 查找:在一个字符串中查找所有符合正则表达式模式的子串。例如,在一段文本中查找所有的电话号码。在Python中,使用
re
模块的findall()
函数,示例如下:
import repattern = r'\d{3}-\d{8}|\d{4}-\d{7}' # 匹配电话号码格式,如010-12345678或020-1234567
string = '我的电话号码是010-12345678,或者020-1234567'
matches = re.findall(pattern, string)
print(matches)
- 替换:将符合正则表达式模式的子串替换为其他内容。例如,将文本中的所有数字替换为
*
。在Python中,通过re
模块的sub()
函数来实现,示例如下:
import repattern = r'\d+'
string = 'abc123def456ghi'
new_string = re.sub(pattern, '*', string)
print(new_string)
- 分割:根据正则表达式模式将字符串分割成多个子串。例如,根据逗号或空格将一个字符串分割成多个单词。在Python中,使用
re
模块的split()
函数,示例如下:
import repattern = r'[,\s]+'
string = 'apple,banana orange;pear'
parts = re.split(pattern, string)
print(parts)
不同的编程语言对正则表达式的支持和使用方式可能会略有不同,但基本的原理和语法是相似的。在实际使用中,需要根据具体的需求和编程语言来选择合适的方法和函数。
以下是一些常见的正则表达式
数字相关
- 整数:
^-?\d+$
,用于匹配整数,包括正整数、负整数和0。其中^
和$
分别表示字符串的开始和结束位置,-?
表示可选的负号,\d+
表示一个或多个数字。 - 正整数:
^[1-9]\d*$
,匹配大于0的整数,[1-9]
表示首位数字是1到9中的一个,\d*
表示后面可以跟零个或多个数字。 - 浮点数:
^-?\d+(\.\d+)?$
,可以匹配浮点数,如3.14
、-2.5
等。(\.\d+)?
表示可选的小数部分,其中\.
表示匹配小数点,\d+
表示小数点后面的数字。
字符串相关
- 非空字符串:
^.+$
,匹配至少包含一个字符的字符串,.+
表示匹配一个或多个任意字符。 - 字母字符串:
^[a-zA-Z]+$
,用于匹配由字母组成的字符串,[a-zA-Z]
表示匹配任意一个大小写字母,+
表示一个或多个。 - 字母数字字符串:
^[a-zA-Z0-9]+$
,匹配由字母和数字组成的字符串。
日期时间相关
- YYYY-MM-DD格式日期:
^\d{4}-\d{2}-\d{2}$
,用于匹配如2024-01-01
格式的日期,\d{4}
表示四位数字的年份,\d{2}
表示两位数字的月份和日期。 - HH:MM:SS格式时间:
^\d{2}:\d{2}:\d{2}$
,可以匹配如12:30:00
格式的时间,\d{2}
分别表示小时、分钟和秒的两位数字。
其他
- 邮箱地址:
^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$
,用于验证邮箱地址的合法性,前面部分[a-zA-Z0-9_.+-]+
匹配邮箱用户名,中间@
为分隔符,后面[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
匹配域名部分。 - 手机号码(中国大陆):
^1[3-9]\d{9}$
,匹配以1开头,第二位是3到9中的一个数字,后面跟着9位数字的手机号码。 - 身份证号码(中国大陆):
^\d{17}[\dXx]$
或^\d{15}$
,18位身份证号码匹配^\d{17}[\dXx]$
,其中前17位是数字,最后一位可以是数字或X
(大小写均可);15位身份证号码匹配^\d{15}$
,全部为数字。 - URL:
^https?://[^\s/$.?#].[^\s]*$
,用于匹配常见的URL地址,https?
表示匹配http
或https
协议,://
为协议分隔符,[^\s/$.?#]
表示域名的开始字符不能是空格、/
、$
、.
、?
、#
,[^\s]*
表示匹配除空格以外的任意字符。
参考:正则表达式手册