數據結構 KMP 字符串匹配算法

KMP算法是計算機科學中的一種字符串匹配算法，KMP是三個創始人名字首字母

題目

AcWing - 算法基礎課

前置知識點

KMP算法是一種高效的字符串匹配算法，算法名稱取自于三位共同發明人名字的首字母組合。該算法的主要使用場景就是在字符串（也叫主串）中的模式串（也叫子串）定位問題，常見的有“求子串出現的起始位置”、“求子串的出現次數”等。

前綴和后綴

假設一個字符串“ababa"

他的前綴就是a,ab,aba,abab （ababa，ababa，ababa，ababa）

他的后綴就是a,ba,aba,baba （ababa，ababa，ababa，ababa）

前綴和后綴的最大長度，是原字符串長度-1

思路

最淺顯易懂的 KMP 算法講解_嗶哩嗶哩_bilibili

F03【模板】KMP 算法——信息學競賽算法_嗶哩嗶哩_bilibili

給定一個主串S，模式串P，求P在S中出現的位置

普通暴力枚舉

一個字符一個字符的雙指針枚舉，一旦發現不同

主串又要從第二個開始匹配，子串要從頭開始匹配

缺點：時間復雜度太高

kmp優化思路

在比對失敗時，我們已經知道曾經讀過哪些字符了

已經匹配的子串，有相同的后綴，前綴，那我們是不是可以保留相同的前綴，再去查找不同的剩下的字符串

如下圖，主串保留的綠色，實際上是匹配的子串的后綴，子串里保留的綠色部分，就是匹配的子串的前綴

他們是相同的，則可以把主串里匹配的子串的后綴，視為子串前綴，繼續在主串查找相同前綴后面的字符串

next數組使用

我們已經知道kmp的優化思路，那么如何將知道，該保留的前綴呢？再暴力雙指針循環太麻煩

kmp三個人提出了next數組，我們先不看如何實現，先看如何使用，next數組功能

下圖是一個初始狀態

kmp算法匹配失敗時，去看最后一個匹配成功的子串的字符，對應的next數組里的值

查到對應的值后，我們移動子串，跳過next數組里的值對應的字符個數，例如值是2，我們就跳過前兩個字符

我們發現，跳過的這兩個字符，確實能和主串指針指向位置前的兩個字符對應

所以繼續枚舉即可，不需要從頭枚舉

這樣，我們永遠不需要回退主串指針，一次遍歷主串，就可以找到匹配子串

再看一下，如果子串對應next是0時

如果為0,也是從頭開始匹配子串，沒有相同的前綴和后綴，則子串一定不在已經遍歷過的主串里有

則已經遍歷過的主串里的字符，一定沒有子串的子串，所以主串之前的部分可以直接舍棄，不用移動主串指針

推導next數組

next數組中的值，實際上就是，子串以當前字符串結尾，在當前字符串中，最長的前綴，后綴相同的字符串長度

如下圖

ABAB最長的相同前綴，后綴，該前綴或者后綴的長度是2

我們現在知道next的數組里的值代表什么了

那我們想一下，如何推導出next數組里的值

在后綴下一個字符，和前綴后一個字符相同時，我們只需要把next數組對應的值+1，然后填入即可

那在不同時，應該怎么辦，循環遍歷可以，但是時間復雜度較高

舉例，上圖再往下走一個

C和B不同，如何求B的對應的next值

下位字符不同，沒辦法構成更長的相同前后綴，我們看看有沒有更短的前后綴

我們可以發現，確實存在更短的，兩位的前后綴，但是這步在程序中如何體現，暴力求解似乎時間復雜度有點高

其實我們next數組里還有信息，也就是next[i]=3，則子串前3個數，和i-3到i，這兩個字符串是相同的

字符串前三個字符，和i-3到i，就是前后綴，前三個數，和后三個數

也就是右邊的后綴，其實等于左邊的前綴，那我們其實可以忽略中間其他的值，直接去找到最左邊

為什么不會有漏？第一，右邊的后綴和左邊的前綴完全相等

第二，后綴第四個字符和前綴第四個字符不同，所以不會比右邊的后綴，或左邊的前綴更長，也就不會用更多字符

這樣，就相當于是求ABAB的前后綴

第三個A對應的值是1，B是字符串ABAB后綴的第二個字符（因為A對應的是1)

比較B和前綴的第二個字符是否相等

相等，則在B所處位置對應的next數組的值+1

B對應的next的數組的上一位的值，是通過第三個A獲取的，但是實際上，和他組成后綴的是倒數第二個A

實際上是這樣得到的next對應的值，抽象上是和第三個A組成的前后綴

因為倒數第二個A，對應的next的值為3，也就是和前三個字符前綴完全相等

所以可以直接拿第二個A的next計算，因為前三個字符，和后三個字符（這說的字符串next=3對應的A）完全一樣

前三個有的字符，后三個都有，所以B可以和后三個字符組成的后綴，和前三個字符也可以組成相同的后綴

后三個字符代表的next值代表的前后綴相同的長度又太長，利用前三個字符代表的前后綴長度，即可完成回退

代碼實現

next[i]代表子串p[1,i]相同前后綴的最大長度

i代表的指針，永遠不往前回退，指向的是后綴的最后一個字符

j代表的指針，可以通過next數組回退，指向的是前綴最后一個字符

注：next在c++中有關鍵字，所以使用ne[]

next數組推導實現

ne[1]=0;
//兩個字符串數組實際上都是從1開始
//i等于2是因為指向第二個字符即可，至少兩個字符才有前后綴
//j=0,因為j從j+1開始比，也就是j=0是為了j從1開始
for(int i=2,j=0;i<=n;i++){                                                                                                   //j不為0，為0表示回到的子串第一個數的位置//i代表目前指到的位置，j代表相同前后綴的前綴的最后一個字符的位置//如果下位字符不同時，回退到j的值代表的前ne[j]位//上圖中說前綴后綴完全相等，j回到相同的前綴的最后一個字符的位置//看ne[j]的下一位p[j+]，和i指向的字符是否相等//相等結束循環，否則繼續，直到相等或者j=0(回退到第一個字符串)while(j&&p[i]!=p[j+1])j=ne[j];//如果是相等，而不是j回退到了0，則j++,表示長度+1//j的值是ne[j]的值,j++=  就是  j=ne[j]+1,if(p[i]==p[j+1])j++;//記錄下j的值，j現在指向的是相同前后綴的前綴的最后一個字符//代表的值是最長相同前后綴長度//把這個值加在ne[i]指針上，指向的是相同前后綴后綴的最后一個字符ne[i]=j;
}

子串位置查找實現，查找主串出現子串的起始位置

 //推導子串出現位置,這次i等于1是因為，此循環判斷的不是前后綴相同，而是判斷是否為子串//因為兩個完全一樣的字符串，也互相為子串，子串第一個數有可能從i=1,j=1就開始了//所以這里要令i=1for(int i=1,j=0;i<=m;i++){//跳躍式找到主串現在指向的值，在子串中存在的位置while(j&&s[i]!=p[j+1])j=ne[j];//i指向主串的字符，和子串的字符下一個字符相等,則可以再推進走一步if(s[i]==p[j+1])j++;if(j==n)//長度一致，找到子串{cout<<i-j<<" ";//返回子串起始位置//可省略，意思是將j回退到除本身外，最大的相同前后綴長度,避免下個循環j+1越界j=ne[j];}}

整合代碼

AcWing - 算法基礎課

#include<iostream>
using namespace std;
const int N = 100010;
char p[N],s[N*10];
int ne[N];
int n,m;
int main(){cin >> n >> p + 1 >> m >> s + 1;ne[1]=0;//推導nxet數組for(int i=2,j=0;i<=n;i++){while(j&&p[i]!=p[j+1])j=ne[j];if(p[i]==p[j+1])j++;ne[i]=j;}//推導子串出現位置for(int i=1,j=0;i<=m;i++){//跳躍式找到主串現在指向的值，在子串中存在的位置while(j&&s[i]!=p[j+1])j=ne[j];if(s[i]==p[j+1])j++;if(j==n)//長度一致，找到子串{cout<<i-j<<" ";//返回子串起始位置//可省略，意思是將j回退到除本身外，最大的相同前后綴長度,避免下個循環j+1越界j=ne[j];}}return 0;
}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/899659.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/899659.shtml
英文地址，請注明出處：http://en.pswp.cn/news/899659.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！