您的位置:首页 > 其它

字符串匹配kmp算法

2014-05-05 17:03 169 查看
一、kmp模式匹配

如下图所示:

 


分别表示主串S和带匹配的模板串T;

对其进行匹配,一种很自然的方法是朴素算法,如下所示:

 


一个一个字符比较,当i指针和j指针指向的字符是否一致,如果一致往后移。



A和E不相等,那就把i指针回到2(即B),j移动到T串的第一位,然后继续这样的步骤。

 


仔细查看,我们就能发现,其实知道了前面3个字符ABC,KMP算法的想法是:设法利用这个已知信息,不要把搜索位置移回到已经比较过的位置,继续把它向后移。(即i不回溯,只改变j的值)。

而j值的多少取决于当前字符之前的串的前后串的相识度,我们把T串各个位置的j变化定义为一个数组next,那么next的长度是T的长度,定义函数为:



其推导的代码如下:

void get_next(wstring T, int *next)
{
int i ,j;

i = 1;
j = 0;

next[1] = 0;

while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
next[i] = j ;
}
else
{
j = next[j]; //若字符不相等,则J值回溯
}
}

for (int k = 1; k <= T.Size(); k++)
{
cout << next[k] << " ";
}
}
实例实现代码:
#include "stdafx.h"
#include <string>
#include <iostream>

using namespace std;

void get_next(wstring T, int *next)
{
int i ,j;

i = 1;
j = 0;

next[1] = 0;

while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
next[i] = j ;
}
else
{
j = next[j]; //若字符不相等,则J值回溯
}
}

for (int k = 1; k <= T.size(); k++)
{
cout << next[k] << " ";
}
}

int Index_KMP(wstring S, wstring T, int pos, int* next)
{
int i = pos;

int j = 1; //j用于子串T中当前位置下标值

get_next(T, next); //这里是以下标为1开始的

int S_index = S.size();
int T_index = T.size();

while( i <= S_index && j <= T_index )
{
if ( j == 0 || S[i-1] == T[j-1]) //i不变,调整j
{
++i;
++j;
}
else
{
j = next[j]; //回溯j
}
}
if (j > T_index) //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
{
return i - T_index;
}
else
{
return 0;
}

}

int _tmain(int argc, _TCHAR* argv[])
{
wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
wstring str_2 = _T("ABCDABD");

int n = str_2.length();
int* next = new int
;

int pos_f = Index_KMP(str_1, str_2, 1, next);

return 0;
}

得到的next[j]为:0 1 1 1 1 2 3 (其j从1开始)
二、KMP模式匹配算法的改进
有人发现KMP还是有缺陷的。比如主串S=“aaaabcde”,子串T=“aaaaax”,其next数组值为012345.

按KMP调整j值,会发现下图中2,3,4,5步骤其实是多余的判断。



由于T串的第二,三,四,五位置的字符都与首位的‘a’相等,那么可以用首位next[1]的值去取代它相等字符后续next[j]的值。

假设取代的数组为nextval,若子串T=“ABCDABD”
其next数组为:



代码如下:

// kmp.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include <string>
#include <iostream>

using namespace std;

void get_nextval(wstring T, int *nextval)
{
int i ,j;

i = 1;
j = 0;

nextval[1] = 0;

while ( i <= T.length() )
{
if ( j == 0 || T[i - 1] == T[j - 1] ) //T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;

if( T[i - 1] != T[j - 1] )
{
nextval[i] = j ;
}
else
{
nextval[i] = nextval[j];
}

}
else
{
j = nextval[j]; //若字符不相等,则J值回溯
}
}

for (int k = 1; k <= T.size(); k++)
{
cout << nextval[k] << " ";
}
}

int Index_KMP(wstring S, wstring T, int pos, int* next)
{
int i = pos;

int j = 1; //j用于子串T中当前位置下标值

get_nextval(T, next); //这里是以下标为1开始的

int S_index = S.size();
int T_index = T.size();

while( i <= S_index && j <= T_index )
{
if ( j == 0 || S[i-1] == T[j-1]) //i不变,调整j
{
++i;
++j;
}
else
{
j = next[j]; //回溯j
}
}
if (j > T_index) //如果是匹配T的下标j大于其总长,则表示找到其匹配位置
{
return i - T_index;
}
else
{
return 0;
}

}

int _tmain(int argc, _TCHAR* argv[])
{
wstring str_1 = _T("BBC ABCDAB ABCDABCDABDE");
wstring str_2 = _T("ABCDABD");

int n = str_2.length();
int* nextval = new int
;

int pos_f = Index_KMP(str_1, str_2, 1, nextval);

return 0;
}


得到的结果:pos_f = 16
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: