Qt文本处理【正则表达式】示例详解：【QRegularExpression】

在 Qt 中，正则表达式是处理文本的强大工具，它能够帮助我们匹配、搜索和替换特定的字符串模式。自 Qt 5 起，QRegularExpression 类提供了对 ECMAScript 标准的正则表达式支持，这使得它在处理各种复杂的字符串任务时变得更加高效和灵活。本文将详细讲解如何在 Qt 中使用 QRegularExpression 类，以及常见的正则表达式模式的实际应用。

1. 什么是正则表达式？

正则表达式（Regular Expression，简称正则）是一个特殊的文本字符串，它描述了搜索文本的模式。我们可以通过正则表达式定义匹配规则，进而用于文本搜索、替换、验证和分组提取数据。正则表达式广泛应用于数据验证、文本解析等场景。

2. `QRegularExpression` 类概述

在 Qt 中，QRegularExpression 类用来处理正则表达式。相比于旧版的 QRegExp 类，QRegularExpression 提供了更现代、更强大的功能，特别是支持 ECMAScript 标准，使得它能够处理更复杂的正则表达式。

2.1 `QRegularExpression` 的基本构造与用法

QRegularExpression 类的主要构造函数是：

QRegularExpression::QRegularExpression(const QString &pattern)

它接收一个字符串作为正则表达式的模式。我们可以使用此模式对文本进行匹配、验证或者替换操作。

2.2 匹配和提取

使用 QRegularExpression，我们通常会进行以下操作：

match()：用来检查字符串是否符合正则表达式模式。
captured(int group = 0)：提取匹配的内容，group 表示捕获组的编号。

3. 常见正则表达式模式讲解与示例

下面通过几个常见的正则表达式实例，详细讲解每个正则表达式的功能以及如何在 Qt 中使用 QRegularExpression 进行操作。

3.1 基本模式

.：匹配任意字符（除了换行符）。
\d：匹配一个数字字符（等价于 [0-9]）。
\w：匹配一个字母、数字或下划线字符（等价于 [A-Za-z0-9_]）。
\s：匹配任意空白字符。
+：匹配前一个元素一次或多次。
*：匹配前一个元素零次或多次。
?：匹配前一个元素零次或一次。
^：匹配字符串的开始。
$：匹配字符串的结束。
()：分组，用于捕获匹配的子字符串。
[]：字符集，匹配包含在其中的任何一个字符。

3.2 匹配电子邮件地址

假设我们需要验证一个电子邮件地址是否符合常见的格式，可以使用以下正则表达式：

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

示例代码：

#include <QRegularExpression>
#include <QRegularExpressionMatch>
#include <QDebug>int main() {// 创建正则表达式，用于匹配电子邮件地址QRegularExpression re(R"([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})");// 测试电子邮件字符串QString email = "user@example.com";// 使用正则表达式进行匹配QRegularExpressionMatch match = re.match(email);// 检查是否匹配成功if (match.hasMatch()) {qDebug() << "有效的电子邮件地址！";} else {qDebug() << "无效的电子邮件地址！";}return 0;
}

解析：

[a-zA-Z0-9._%+-]+：匹配电子邮件用户名部分，允许字母、数字以及常见的特殊符号。
@：用于分隔用户名和域名。
[a-zA-Z0-9.-]+：匹配域名部分，支持字母、数字、点（.）和连字符（-）。
\.：匹配字面上的点（.），用于分隔域名和顶级域。
[a-zA-Z]{2,}：匹配顶级域，至少有两个字母（如 .com、.org 等）。

3.3 匹配电话号码格式（如 `(123) 456-7890`）

我们可以使用正则表达式来验证电话号码格式：

\(\d{3}\) \d{3}-\d{4}

示例代码：

#include <QRegularExpression>
#include <QRegularExpressionMatch>
#include <QDebug>int main() {// 创建正则表达式，匹配格式 (xxx) xxx-xxxxQRegularExpression re(R"(\(\d{3}\) \d{3}-\d{4})");// 测试电话号码QString phone = "(123) 456-7890";// 使用正则表达式进行匹配QRegularExpressionMatch match = re.match(phone);// 检查是否匹配成功if (match.hasMatch()) {qDebug() << "有效的电话号码！";} else {qDebug() << "无效的电话号码！";}return 0;
}

解析：

\(：匹配字面上的左括号，需要转义。
\d{3}：匹配 3 个数字，表示区号。
\)：匹配字面上的右括号，同样需要转义。
空格：匹配字面上的空格字符。
\d{3}：匹配 3 个数字，表示电话号码的中间部分。
-：匹配字面上的连字符。
\d{4}：匹配 4 个数字，表示电话号码的后四位。

3.4 匹配日期格式（如 `2025-02-11`）

如果我们想匹配格式为 YYYY-MM-DD 的日期，可以使用如下正则表达式：

(\d{4})-(\d{2})-(\d{2})

示例代码：

#include <QRegularExpression>
#include <QRegularExpressionMatch>
#include <QDebug>int main() {// 创建正则表达式，匹配日期格式 YYYY-MM-DDQRegularExpression re(R"((\d{4})-(\d{2})-(\d{2}))");// 测试日期字符串QString date = "2025-02-11";// 使用正则表达式进行匹配QRegularExpressionMatch match = re.match(date);// 检查是否匹配成功if (match.hasMatch()) {qDebug() << "年份:" << match.captured(1);qDebug() << "月份:" << match.captured(2);qDebug() << "日期:" << match.captured(3);} else {qDebug() << "无效的日期格式！";}return 0;
}

解析：

(\d{4})：匹配 4 个数字，表示年份。
-：匹配字面上的连接符 -。
(\d{2})：匹配 2 个数字，表示月份。
-：匹配字面上的连接符 -。
(\d{2})：匹配 2 个数字，表示日期。

3.5 匹配单词长度为 5 的单词

为了匹配长度为 5 的单词，可以使用如下的正则表达式：

\b\w{5}\b

示例代码：

#include <QRegularExpression>
#include <QDebug>int main() {// 创建正则表达式，匹配长度为 5 的单词QRegularExpression re(R"(\b\w{5}\b)");// 测试字符串QString text = "The quick brown fox jumps over the lazy dog.";// 使用正则表达式进行匹配QRegularExpressionMatchIterator iterator = re.globalMatch(text);// 输出匹配到的所有长度为 5 的单词while (iterator.hasNext()) {QRegularExpressionMatch match = iterator.next();qDebug() << match.captured(0);  // 输出匹配到的单词}return 0;
}