LeetCode - 28 找出字符串中第一个匹配项的下标

题目来源

28. 找出字符串中第一个匹配项的下标 - 力扣（LeetCode）

题目解析

暴力解法

本题如果采用暴力解法的话，可以定义两个指针 i，j，其中 i 指针用于扫描 S（haystack）串，j 指针用于扫描 T（needle）串。

比如：S = "aabaabaaf"，T = "aabaaf"

假设 S 串的起始匹配位置为 k，则 k 取值范围是：[0, s.length - t.length]

上图匹配过程中，分为两个循环：

外层循环，即匹配的轮数控制，或者说是，S串的匹配起始位置控制，比如：

第 0 轮，T 串是从 S 串的 0 索引位置开始匹配
第 1 轮，T 串是从 S 串的 1 索引位置开始匹配
...
第 k 轮，T 串是从 S 串的 k 索引位置开始匹配

内层循环，即T串和S串的 k ~ k + t.length 范围进行逐个字符一一匹配，

如果发现存在对应位的字符不一致，则说明当前轮匹配失败，直接进入下一轮
如果所有位置上的字符都相同，则说明匹配成功，即在S中找到了和T相同的子串，且该子串起始位置是k

假设，s.length = n，t.length = m，则暴力解法的时间复杂度为O(n * m)

KMP算法

对于字符串模式匹配问题，暴力算法并非最优解决方案，虽然 s，t 都是随机串，但是这些随机串也会存在一定规律可以利用。

比如上面暴力解法图示中，当第 k = 0 轮匹配失败后，第 k =1 轮，第 k =2 轮是否注定失败了呢？

如下图是第 k = 0 轮最后一个字符匹配失败的情况：

我们观察其中匹配成功的部分，即"aabaa"部分，这部分具有相同前后缀aa。

如果我们将 S，T 的 "aabaa" 后面部分抽象化（....），如下图所示，那么：

第 k = 0 轮匹配失败是因为 “抽象部分（....）” 的匹配失败
第 k = 1 轮，第 k = 2 轮匹配失败，其实就是 "aabaa" 部分的匹配失败：

我们将第 k = 1 轮，第 k = 2 轮，第 k = 3 轮再次简化一下，如下图所示：

那么是不是很显然可以发现，第1轮，第2轮是注定失败的。

我们再举一个例子：

如果上面 S，T 在第 k = 0 轮因为抽象部分（...）匹配失败，那么下一轮，其实是否可以直接让：前缀部分直接跳转到后缀位置？

因为前缀部分（如abc）和后缀部分（如abc）完全相同，而前缀部分（如abc）和中间部分（如d）不相同，因此前缀部分（如abc）和中间部分对齐（如d）时，必然匹配失败。

这样的话，是不是跳过了两轮匹配，即节省了两轮匹配的时间。

请大家再思考一下，上面让前缀部分直接跳转和后缀部分对齐，真的是只节省两轮匹配的过程吗？

下面图示是，第0轮匹配失败后，直接跳到对称部分开始重新匹配

如果对应到暴力解法过程的话，那么下面画X的部分就都是跳过的过程

我们再观察下这个跳到对称部分的过程中，i，j指针的变化

可以发现，i 指针在 S 中的位置并没有改变

j 指针回退指向到了 T 的 "aabaa" 前缀部分（aa）的后一个位置（b所在位置）
或者假设前缀部分（aa）长度为 len，则 j 回退到 T 串的 len 索引位置

那么上面这个改进算法的时间复杂度是多少呢？

由于上面算法中，保证了 i 指针不会回退，因此时间复杂度只有O(n)。

而这个算法其实就是KMP算法。

前缀表概念

上面我们已经说明了KMP算法的大致原理，其中最关键的就是在模式串 T 中找其前缀子串的最长相同前后缀，比如

T = "aabaaf" 有前缀子串 "aabaa"，该子串的最长相同前后缀是 "aa"

那么该如何通过代码来实现这个功能呢？

KMP算法的三个创始人K，M，P提出了前缀表的概念。

首先定义下字符串的前缀、后缀概念

假设字符串 t 长度为n，那么：

前缀就是起始索引必须为0，结束索引＜n-1的所有子串
后缀就是结束索引必须为n-1，起始索引必须>0的所有子串

因此

前缀和后缀不能是字符串 t 本身
字符串 t 的前缀和后缀是可能存在重叠部分的

我们举一个例子，比如列出T的子串 "aabaa" 的所有的前缀和后缀

长度	前缀（红色子串）	后缀（绿色子串）
1	aabaa	aabaa
2	aabaa	aabaa
3	aabaa	aabaa
4	aabaa	aabaa

其中最长且相同的前后缀是"aa"。

注意，判断前缀和后缀是否相同，都是从左往右逐一比对，因此上面例子中，长度为3的前缀"aab"和后缀"baa"是不相同的。

还有相同的前缀、后缀是可能存在重叠

比如字符串 "ababab"

长度	前缀（红色子串）	后缀（绿色子串）
1	ababab	ababab
2	ababab	ababab
3	ababab	ababab
4	ababab	ababab
5	ababab	ababab

最长相同的前缀和后缀是"abab" ，他们是存在重叠的

因此T = "aabaaf"所有前缀子串的最长相同的前缀和后缀的长度分别为：

T的前缀串	最长相同的前后缀	最长相同的前后缀的长度
a	""	0
aa	a	1
aab	""	0
aaba	a	1
aabaa	aa	2
aabaaf	""	0

我们将 T 的所有前缀串对应的 “最长相同的前后缀的长度” 记录为一个数组 next，我们称 next 为前缀表

next = [0, 1, 0, 1, 2, 0]

前缀表的应用

前面我们手算出了前缀表 next 数组

next = [0, 1, 0, 1, 2, 0]

next[j] 表示：T 的 [0, j] 范围子串的最长相同前后缀长度，比如：

next[0] 表示：T的 [0,0] 范围子串 "a" 的最长相同前后缀长度 0
next[1] 表示：T的 [0,1] 范围子串 "aa" 的最长相同前后缀长度 1
next[2] 表示：T的 [0,2] 范围子串 "aab" 的最长相同前后缀长度 0
next[3] 表示：T的 [0,3] 范围子串 "aaba" 的最长相同前后缀长度 1
next[4] 表示：T的 [0,4] 范围子串 "aabaa" 的最长相同前后缀长度 2
next[5] 表示：T的 [0,5] 范围子串 "aabaaf" 的最长相同前后缀长度 0

那么如何将 next 应用到KMP算法中呢？

比如下图中，S[i] != T[j] 时，我们前面分析过，需要做如下动作：

i 指针保持指向不变
j 指针回退到 T 的 len 索引位置（len：表示 T 的前缀串 "aabaa" 的最长相同前后缀 "aa" 的长度）

len 含义和 next[j-1] 含义是相同的

next[j - 1] 表示 T 的 [0, j-1] 范围子串 "aabaa" 的最长相同前后缀的长度

因此，当s[i] != t[j] 时，我们可以让： j = next[ j - 1 ]

另外，如果 j = 0 时就匹配不上，此时 next[j-1] 会发生越界异常，因此针对这种i情况，我们应该特殊处理，如下图所示，就是一个 j = 0无法匹配的情况：

此时，我们应该让 i++，j 保持不变，继续匹配

这其实和前面KMP算法规定的 i 指针不回退这一条件不冲突。因为上面过程 i 指针没有发生回退。

生成前缀表

前面我们已经手算过了前缀表，但是手算过程是一个暴力枚举的过程。

关于前缀表的生成，我们可以利用动态规划求解。

比如：假设已知 K = NEXT[J-1]，现在要求 NEXT[J]，比如下图

如果 T[J] == T[K] 的话，比如

NEXT[J] 表示 [0, J] 范围子串 "abdabeabdabe" 的最长相同前后缀（"abdabe"）长度为 K+1

因此当 T[J] == T[K] 时，那么 NEXT[J] = K + 1

如果T[J] ! = T[K]的话，比如

那么此时该如何求解 NEXT[J] 呢？

我们将上图继续分解

如果下面两个位置的字符相同

那么此时就找到了 NEXT[J] 的值。

因此当 T[J] != T[K] 时，我们可以让 K = NEXT[K-1]，继续前面逻辑，直到 K 移动到：

T[J] == T[K] 时，此时 NEXT[J] = K + 1
若 K == 0 时，依旧 T[J] != T[K]，则此时可以认为 NEXT[J] = 0，此时我们J++，求解下一个 NEXT[J]

C算法源码

暴力解法

int strStr(char* s, char* t) {int sLen = strlen(s);int tLen = strlen(t);for (int k = 0; k <= sLen - tLen; k++) {int i = k;int j = 0;while (j < tLen && s[i] == t[j]) {i++;j++;}if (j == tLen) {return k;}}return -1;
}

KMP算法

int* getNext(char* t) {int tLen = strlen(t);int* next = (int*)calloc(tLen, sizeof(int));int j = 1;int k = next[j - 1];while (j < tLen) {if (t[j] == t[k]) {next[j] = k + 1; // 前缀范围 t[0,k] == 后缀范围 t[j-k,j]  此时最长相同前后缀长度为：k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0，则缩短前缀部分，k = next[k-1] 后继续比较 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0，则 k 无法继续后退，此时可以认为 next[j] 为 0，进行j++，继续求解下一个next[j]}}return next;
}int strStr(char* s, char* t) {int sLen = strlen(s);int tLen = strlen(t);int* next = getNext(t); // 生成 t 串的前缀表int i = 0;int j = 0;while (i < sLen && j < tLen) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0，则 i 指针不动，j 指针回退到 t 串的 next[j-1] 位置 } else {i++; // 若 s[i] != t[j] && j == 0，则表示 s[i] 和 t[0] 首个字符就匹配失败，我们只能进入下一轮，即 i++}}if (j == tLen) { // 若 t 串所有字符都被匹配成功，则 j == t.lengthreturn i - j; // 此时 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}
}

C++算法源码

暴力解法

class Solution {
public:int strStr(string s, string t) {int sLen = s.size();int tLen = t.size();for (int k = 0; k <= sLen - tLen; k++) {int i = k;int j = 0;while (j < tLen && s[i] == t[j]) {i++;j++;}if (j == tLen) {return k;}}return -1;}
};

KMP算法

class Solution {
public:int strStr(string s, string t) {vector<int> next = getNext(t); // 生成 t 串的前缀表int i = 0;int j = 0;while (i < s.size() && j < t.size()) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0，则 i 指针不动，j 指针回退到 t 串的 next[j-1] 位置 } else {i++; // 若 s[i] != t[j] && j == 0，则表示 s[i] 和 t[0] 首个字符就匹配失败，我们只能进入下一轮，即 i++}}if (j == t.size()) { // 若 t 串所有字符都被匹配成功，则 j == t.lengthreturn i - j; // 此时 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}}vector<int> getNext(string t) {vector<int> next(t.size(), 0);int j = 1;int k = next[j - 1];while (j < t.size()) {if (t[j] == t[k]) {next[j] = k + 1;  // 前缀范围 t[0,k] == 后缀范围 t[j-k,j]  此时最长相同前后缀长度为：k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0，则缩短前缀部分，k = next[k-1] 后继续比较 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0，则 k 无法继续后退，此时可以认为 next[j] 为 0，进行j++，继续求解下一个next[j]}}return next;}
};

Java算法源码

暴力解法


class Solution {public int strStr(String haystack, String needle) {char[] s = haystack.toCharArray();char[] t = needle.toCharArray();for (int k = 0; k <= s.length - t.length; k++) {int i = k;int j = 0;while (j < t.length && s[i] == t[j]) {i++;j++;}if (j == t.length) {return k;}}return -1;}
}

KMP算法


class Solution {public int strStr(String haystack, String needle) {char[] s = haystack.toCharArray();char[] t = needle.toCharArray();int[] next = getNext(t); // 生成 t 串的前缀表int i = 0;int j = 0;while (i < s.length && j < t.length) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) { // 若 s[i] != t[j] && j > 0，则 i 指针不动，j 指针回退到 t 串的 next[j-1] 位置 j = next[j - 1];} else { // 若 s[i] != t[j] && j == 0，则表示 s[i] 和 t[0] 首个字符就匹配失败，我们只能进入下一轮，即 i++i++;}}if (j == t.length) { // 若 t 串所有字符都被匹配成功，则 j == t.lengthreturn i - j; // 此时 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}}public static int[] getNext(char[] t) {int[] next = new int[t.length];int j = 1;int k = next[j-1];while (j < t.length) {if (t[j] == t[k]) {next[j] = k + 1; // 前缀范围 t[0,k] == 后缀范围 t[j-k,j]  此时最长相同前后缀长度为：k+1j++;k++;} else if (k > 0) { // 若 t[j] != t[k] && k > 0，则缩短前缀部分，k = next[k-1] 后继续比较 t[k] 和 t[j]k = next[k - 1];} else {j++; // 若 t[j] != t[k] && k == 0，则 k 无法继续后退，此时可以认为 next[j] 为 0，进行j++，继续求解下一个next[j]}}return next;}
}

Python算法源码

暴力解法

class Solution(object):def strStr(self, s, t):""":type haystack: str:type needle: str:rtype: int"""for k in range(0, len(s) - len(t) + 1):i = kj = 0while j < len(t) and s[i] == t[j]:i += 1j += 1if j == len(t):return kreturn -1

KMP算法

def getNext(t):next = [0] * len(t)j = 1k = next[j - 1]while j < len(t):if t[j] == t[k]:next[j] = k + 1  # 前缀范围 t[0,k] == 后缀范围 t[j-k,j]  此时最长相同前后缀长度为：k+1j += 1k += 1elif k > 0:k = next[k - 1]  # 若 t[j] != t[k] && k > 0，则缩短前缀部分，k = next[k-1] 后继续比较 t[k] 和 t[j]else:j += 1  # 若 t[j] != t[k] && k == 0，则 k 无法继续后退，此时可以认为 next[j] 为 0，进行j++，继续求解下一个next[j]return nextclass Solution(object):def strStr(self, s, t):""":type haystack: str:type needle: str:rtype: int"""next = getNext(t)  # 生成 t 串的前缀表i, j = 0, 0while i < len(s) and j < len(t):if s[i] == t[j]:i += 1j += 1elif j > 0:j = next[j - 1]  # 若 s[i] != t[j] && j > 0，则 i 指针不动，j 指针回退到 t 串的 next[j-1] 位置 else:i += 1  # 若 s[i] != t[j] && j == 0，则表示 s[i] 和 t[0] 首个字符就匹配失败，我们只能进入下一轮，即 i++if j == len(t):  # 若 t 串所有字符都被匹配成功，则 j == t.lengthreturn i - j  # 此时 s 串的 i - j 位置就是首次匹配 t 的子串起始位置else:return -1

JavaScript算法源码

暴力解法

/*** @param {string} haystack* @param {string} needle* @return {number}*/
var strStr = function (s, t) {for (let k = 0; k <= s.length - t.length; k++) {let i = k;let j = 0;while (j < t.length && s[i] == t[j]) {i++;j++;}if (j == t.length) {return k;}}return -1;
};

KMP算法

/*** @param {string} haystack* @param {string} needle* @return {number}*/
var strStr = function (s, t) {const next = getNext(t); // 生成 t 串的前缀表let i = 0;let j = 0;while (i < s.length && j < t.length) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0，则 i 指针不动，j 指针回退到 t 串的 next[j-1] 位置} else {i++; // 若 s[i] != t[j] && j == 0，则表示 s[i] 和 t[0] 首个字符就匹配失败，我们只能进入下一轮，即 i++}}if (j == t.length) { // 若 t 串所有字符都被匹配成功，则 j == t.lengthreturn i - j; // 此时 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}
};var getNext = function (t) {const next = new Array(t.length).fill(0);let j = 1;let k = next[j - 1];while (j < t.length) {if (t[j] == t[k]) {next[j] = k + 1; // 前缀范围 t[0,k] == 后缀范围 t[j-k,j]  此时最长相同前后缀长度为：k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0，则缩短前缀部分，k = next[k-1] 后继续比较 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0，则 k 无法继续后退，此时可以认为 next[j] 为 0，进行j++，继续求解下一个next[j]}}return next;
}