題目來源
28. 找出字符串中第一個匹配項的下標 - 力扣(LeetCode)
題目解析
暴力解法
本題如果采用暴力解法的話,可以定義兩個指針 i,j,其中 i 指針用于掃描 S(haystack)串,j 指針用于掃描 T(needle)串。
比如:S = "aabaabaaf",T = "aabaaf"
假設 S 串的起始匹配位置為 k,則 k 取值范圍是:[0, s.length - t.length]
上圖匹配過程中,分為兩個循環:
外層循環,即匹配的輪數控制,或者說是,S串的匹配起始位置控制,比如:
- 第 0 輪,T 串是從 S 串的 0 索引位置開始匹配
- 第 1 輪,T 串是從 S 串的 1 索引位置開始匹配
- ...
- 第 k 輪,T 串是從 S 串的 k 索引位置開始匹配
內層循環,即T串和S串的 k ~ k + t.length 范圍進行逐個字符一一匹配,
- 如果發現存在對應位的字符不一致,則說明當前輪匹配失敗,直接進入下一輪
- 如果所有位置上的字符都相同,則說明匹配成功,即在S中找到了和T相同的子串,且該子串起始位置是k
假設,s.length = n,t.length = m,則暴力解法的時間復雜度為O(n * m)
KMP算法
對于字符串模式匹配問題,暴力算法并非最優解決方案,雖然 s,t 都是隨機串,但是這些隨機串也會存在一定規律可以利用。
比如上面暴力解法圖示中,當第 k = 0 輪匹配失敗后,第 k =1 輪,第 k =2 輪是否注定失敗了呢?
如下圖是第 k = 0 輪最后一個字符匹配失敗的情況:
我們觀察其中匹配成功的部分,即"aabaa"部分,這部分具有相同前后綴aa。
如果我們將 S,T 的?"aabaa" 后面部分抽象化(....),如下圖所示,那么:
- 第 k = 0 輪匹配失敗是因為 “抽象部分(....)” 的匹配失敗
- 第 k = 1 輪,第 k = 2 輪匹配失敗,其實就是 "aabaa" 部分的匹配失敗:
?我們將第 k = 1 輪,第 k = 2 輪,第 k = 3 輪再次簡化一下,如下圖所示:
那么是不是很顯然可以發現,第1輪,第2輪是注定失敗的。
我們再舉一個例子:
如果上面 S,T 在第 k = 0 輪因為抽象部分(...)匹配失敗,那么下一輪,其實是否可以直接讓:前綴部分直接跳轉到后綴位置?
因為前綴部分(如abc)和后綴部分(如abc)完全相同,而前綴部分(如abc)和中間部分(如d)不相同,因此前綴部分(如abc)和中間部分對齊(如d)時,必然匹配失敗。
這樣的話,是不是跳過了兩輪匹配,即節省了兩輪匹配的時間。
請大家再思考一下,上面讓前綴部分直接跳轉和后綴部分對齊,真的是只節省兩輪匹配的過程嗎?
下面圖示是,第0輪匹配失敗后,直接跳到對稱部分開始重新匹配
如果對應到暴力解法過程的話,那么下面畫X的部分就都是跳過的過程
我們再觀察下這個跳到對稱部分的過程中,i,j指針的變化
可以發現,i 指針在 S 中的位置并沒有改變
- j 指針回退指向到了 T 的 "aabaa" 前綴部分(aa)的后一個位置(b所在位置)
- 或者假設前綴部分(aa)長度為 len,則 j 回退到 T 串的 len 索引位置
那么上面這個改進算法的時間復雜度是多少呢?
由于上面算法中,保證了 i 指針不會回退,因此時間復雜度只有O(n)。
而這個算法其實就是KMP算法。
前綴表概念
上面我們已經說明了KMP算法的大致原理,其中最關鍵的就是在模式串 T 中找其前綴子串的最長相同前后綴,比如
T = "aabaaf" 有前綴子串 "aabaa",該子串的最長相同前后綴是 "aa"
那么該如何通過代碼來實現這個功能呢?
KMP算法的三個創始人K,M,P提出了前綴表的概念。
首先定義下字符串的前綴、后綴概念
假設字符串 t 長度為n,那么:
- 前綴就是起始索引必須為0,結束索引<n-1的所有子串
- 后綴就是結束索引必須為n-1,起始索引必須>0的所有子串
因此
- 前綴和后綴不能是字符串 t 本身
- 字符串 t 的前綴和后綴是可能存在重疊部分的
我們舉一個例子,比如列出T的子串 "aabaa" 的所有的前綴和后綴
長度 | 前綴(紅色子串) | 后綴(綠色子串) |
1 | aabaa | aabaa |
2 | aabaa | aabaa |
3 | aabaa | aabaa |
4 | aabaa | aabaa |
其中最長且相同的前后綴是"aa"。
注意,判斷前綴和后綴是否相同,都是從左往右逐一比對,因此上面例子中,長度為3的前綴"aab"和后綴"baa"是不相同的。
還有相同的前綴、后綴是可能存在重疊
比如字符串 "ababab"
長度 | 前綴(紅色子串) | 后綴(綠色子串) |
1 | ababab | ababab |
2 | ababab | ababab |
3 | ababab | ababab |
4 | ababab | ababab |
5 | ababab | ababab |
最長相同的前綴和后綴是"abab"?,他們是存在重疊的
因此T = "aabaaf"所有前綴子串的最長相同的前綴和后綴的長度分別為:
T的前綴串 | 最長相同的前后綴 | 最長相同的前后綴的長度 |
a | "" | 0 |
aa | a | 1 |
aab | "" | 0 |
aaba | a | 1 |
aabaa | aa | 2 |
aabaaf | "" | 0 |
我們將 T 的所有前綴串對應的 “最長相同的前后綴的長度” 記錄為一個數組 next,我們稱 next 為前綴表
next = [0, 1, 0, 1, 2, 0]
前綴表的應用
前面我們手算出了前綴表 next 數組
next = [0, 1, 0, 1, 2, 0]
next[j] 表示:T 的 [0, j]?范圍子串的最長相同前后綴長度,比如:
- next[0] 表示:T的 [0,0] 范圍子串 "a"? ? ? ? ? 的最長相同前后綴長度 0
- next[1] 表示:T的 [0,1] 范圍子串 "aa"? ? ? ? 的最長相同前后綴長度 1
- next[2] 表示:T的 [0,2] 范圍子串 "aab"? ? ? 的最長相同前后綴長度 0
- next[3] 表示:T的 [0,3] 范圍子串 "aaba"? ? 的最長相同前后綴長度 1
- next[4] 表示:T的 [0,4] 范圍子串 "aabaa"? 的最長相同前后綴長度 2
- next[5] 表示:T的 [0,5] 范圍子串 "aabaaf" 的最長相同前后綴長度 0
那么如何將 next 應用到KMP算法中呢?
比如下圖中,S[i] != T[j] 時,我們前面分析過,需要做如下動作:
- i 指針保持指向不變
- j 指針回退到 T 的 len 索引位置(len:表示 T 的前綴串 "aabaa" 的最長相同前后綴 "aa" 的長度)
len 含義和 next[j-1] 含義是相同的
- next[j - 1] 表示 T 的 [0, j-1] 范圍子串 "aabaa" 的最長相同前后綴的長度?
因此,當s[i] != t[j] 時,我們可以讓: j = next[ j - 1 ]
另外,如果 j = 0 時就匹配不上,此時 next[j-1] 會發生越界異常,因此針對這種i情況,我們應該特殊處理,如下圖所示,就是一個 j = 0無法匹配的情況:
此時,我們應該讓 i++,j 保持不變,繼續匹配
這其實和前面KMP算法規定的 i 指針不回退這一條件不沖突。因為上面過程 i 指針沒有發生回退。
生成前綴表
前面我們已經手算過了前綴表,但是手算過程是一個暴力枚舉的過程。
關于前綴表的生成,我們可以利用動態規劃求解。
比如:假設已知 K = NEXT[J-1],現在要求 NEXT[J],比如下圖
如果 T[J] == T[K] 的話,比如
NEXT[J] 表示 [0, J] 范圍子串 "abdabeabdabe" 的最長相同前后綴("abdabe")長度為 K+1
因此當 T[J] == T[K] 時,那么 NEXT[J]? = K + 1
如果T[J] ! = T[K]的話,比如
那么此時該如何求解 NEXT[J] 呢?
我們將上圖繼續分解
如果下面兩個位置的字符相同
那么此時就找到了 NEXT[J] 的值。
因此當 T[J] != T[K] 時,我們可以讓 K = NEXT[K-1],繼續前面邏輯,直到 K 移動到:
- T[J] == T[K] 時,此時 NEXT[J] = K + 1
- 若 K == 0 時,依舊 T[J] != T[K],則此時可以認為 NEXT[J] = 0,此時我們J++,求解下一個 NEXT[J]
C算法源碼
暴力解法
int strStr(char* s, char* t) {int sLen = strlen(s);int tLen = strlen(t);for (int k = 0; k <= sLen - tLen; k++) {int i = k;int j = 0;while (j < tLen && s[i] == t[j]) {i++;j++;}if (j == tLen) {return k;}}return -1;
}
KMP算法
int* getNext(char* t) {int tLen = strlen(t);int* next = (int*)calloc(tLen, sizeof(int));int j = 1;int k = next[j - 1];while (j < tLen) {if (t[j] == t[k]) {next[j] = k + 1; // 前綴范圍 t[0,k] == 后綴范圍 t[j-k,j] 此時最長相同前后綴長度為:k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0,則縮短前綴部分,k = next[k-1] 后繼續比較 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0,則 k 無法繼續后退,此時可以認為 next[j] 為 0,進行j++,繼續求解下一個next[j]}}return next;
}int strStr(char* s, char* t) {int sLen = strlen(s);int tLen = strlen(t);int* next = getNext(t); // 生成 t 串的前綴表int i = 0;int j = 0;while (i < sLen && j < tLen) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0,則 i 指針不動,j 指針回退到 t 串的 next[j-1] 位置 } else {i++; // 若 s[i] != t[j] && j == 0,則表示 s[i] 和 t[0] 首個字符就匹配失敗,我們只能進入下一輪,即 i++}}if (j == tLen) { // 若 t 串所有字符都被匹配成功,則 j == t.lengthreturn i - j; // 此時 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}
}
C++算法源碼
暴力解法
class Solution {
public:int strStr(string s, string t) {int sLen = s.size();int tLen = t.size();for (int k = 0; k <= sLen - tLen; k++) {int i = k;int j = 0;while (j < tLen && s[i] == t[j]) {i++;j++;}if (j == tLen) {return k;}}return -1;}
};
KMP算法
class Solution {
public:int strStr(string s, string t) {vector<int> next = getNext(t); // 生成 t 串的前綴表int i = 0;int j = 0;while (i < s.size() && j < t.size()) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0,則 i 指針不動,j 指針回退到 t 串的 next[j-1] 位置 } else {i++; // 若 s[i] != t[j] && j == 0,則表示 s[i] 和 t[0] 首個字符就匹配失敗,我們只能進入下一輪,即 i++}}if (j == t.size()) { // 若 t 串所有字符都被匹配成功,則 j == t.lengthreturn i - j; // 此時 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}}vector<int> getNext(string t) {vector<int> next(t.size(), 0);int j = 1;int k = next[j - 1];while (j < t.size()) {if (t[j] == t[k]) {next[j] = k + 1; // 前綴范圍 t[0,k] == 后綴范圍 t[j-k,j] 此時最長相同前后綴長度為:k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0,則縮短前綴部分,k = next[k-1] 后繼續比較 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0,則 k 無法繼續后退,此時可以認為 next[j] 為 0,進行j++,繼續求解下一個next[j]}}return next;}
};
Java算法源碼
暴力解法
class Solution {public int strStr(String haystack, String needle) {char[] s = haystack.toCharArray();char[] t = needle.toCharArray();for (int k = 0; k <= s.length - t.length; k++) {int i = k;int j = 0;while (j < t.length && s[i] == t[j]) {i++;j++;}if (j == t.length) {return k;}}return -1;}
}
KMP算法
class Solution {public int strStr(String haystack, String needle) {char[] s = haystack.toCharArray();char[] t = needle.toCharArray();int[] next = getNext(t); // 生成 t 串的前綴表int i = 0;int j = 0;while (i < s.length && j < t.length) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) { // 若 s[i] != t[j] && j > 0,則 i 指針不動,j 指針回退到 t 串的 next[j-1] 位置 j = next[j - 1];} else { // 若 s[i] != t[j] && j == 0,則表示 s[i] 和 t[0] 首個字符就匹配失敗,我們只能進入下一輪,即 i++i++;}}if (j == t.length) { // 若 t 串所有字符都被匹配成功,則 j == t.lengthreturn i - j; // 此時 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}}public static int[] getNext(char[] t) {int[] next = new int[t.length];int j = 1;int k = next[j-1];while (j < t.length) {if (t[j] == t[k]) {next[j] = k + 1; // 前綴范圍 t[0,k] == 后綴范圍 t[j-k,j] 此時最長相同前后綴長度為:k+1j++;k++;} else if (k > 0) { // 若 t[j] != t[k] && k > 0,則縮短前綴部分,k = next[k-1] 后繼續比較 t[k] 和 t[j]k = next[k - 1];} else {j++; // 若 t[j] != t[k] && k == 0,則 k 無法繼續后退,此時可以認為 next[j] 為 0,進行j++,繼續求解下一個next[j]}}return next;}
}
Python算法源碼
暴力解法
class Solution(object):def strStr(self, s, t):""":type haystack: str:type needle: str:rtype: int"""for k in range(0, len(s) - len(t) + 1):i = kj = 0while j < len(t) and s[i] == t[j]:i += 1j += 1if j == len(t):return kreturn -1
KMP算法
def getNext(t):next = [0] * len(t)j = 1k = next[j - 1]while j < len(t):if t[j] == t[k]:next[j] = k + 1 # 前綴范圍 t[0,k] == 后綴范圍 t[j-k,j] 此時最長相同前后綴長度為:k+1j += 1k += 1elif k > 0:k = next[k - 1] # 若 t[j] != t[k] && k > 0,則縮短前綴部分,k = next[k-1] 后繼續比較 t[k] 和 t[j]else:j += 1 # 若 t[j] != t[k] && k == 0,則 k 無法繼續后退,此時可以認為 next[j] 為 0,進行j++,繼續求解下一個next[j]return nextclass Solution(object):def strStr(self, s, t):""":type haystack: str:type needle: str:rtype: int"""next = getNext(t) # 生成 t 串的前綴表i, j = 0, 0while i < len(s) and j < len(t):if s[i] == t[j]:i += 1j += 1elif j > 0:j = next[j - 1] # 若 s[i] != t[j] && j > 0,則 i 指針不動,j 指針回退到 t 串的 next[j-1] 位置 else:i += 1 # 若 s[i] != t[j] && j == 0,則表示 s[i] 和 t[0] 首個字符就匹配失敗,我們只能進入下一輪,即 i++if j == len(t): # 若 t 串所有字符都被匹配成功,則 j == t.lengthreturn i - j # 此時 s 串的 i - j 位置就是首次匹配 t 的子串起始位置else:return -1
JavaScript算法源碼
暴力解法
/*** @param {string} haystack* @param {string} needle* @return {number}*/
var strStr = function (s, t) {for (let k = 0; k <= s.length - t.length; k++) {let i = k;let j = 0;while (j < t.length && s[i] == t[j]) {i++;j++;}if (j == t.length) {return k;}}return -1;
};
KMP算法
/*** @param {string} haystack* @param {string} needle* @return {number}*/
var strStr = function (s, t) {const next = getNext(t); // 生成 t 串的前綴表let i = 0;let j = 0;while (i < s.length && j < t.length) {if (s[i] == t[j]) {i++;j++;} else if (j > 0) {j = next[j - 1]; // 若 s[i] != t[j] && j > 0,則 i 指針不動,j 指針回退到 t 串的 next[j-1] 位置} else {i++; // 若 s[i] != t[j] && j == 0,則表示 s[i] 和 t[0] 首個字符就匹配失敗,我們只能進入下一輪,即 i++}}if (j == t.length) { // 若 t 串所有字符都被匹配成功,則 j == t.lengthreturn i - j; // 此時 s 串的 i - j 位置就是首次匹配 t 的子串起始位置} else {return -1;}
};var getNext = function (t) {const next = new Array(t.length).fill(0);let j = 1;let k = next[j - 1];while (j < t.length) {if (t[j] == t[k]) {next[j] = k + 1; // 前綴范圍 t[0,k] == 后綴范圍 t[j-k,j] 此時最長相同前后綴長度為:k+1j++;k++;} else if (k > 0) {k = next[k - 1]; // 若 t[j] != t[k] && k > 0,則縮短前綴部分,k = next[k-1] 后繼續比較 t[k] 和 t[j]} else {j++; // 若 t[j] != t[k] && k == 0,則 k 無法繼續后退,此時可以認為 next[j] 為 0,進行j++,繼續求解下一個next[j]}}return next;
}