[代码实例]字符串近似匹配算法 C++
2006-09-26 09:33
1181 查看
[代码实例]字符串近似匹配算法
英雄
C、C++ (2003-10-29 13:00:21)
字符串的近似匹配,就是允许在匹配时有一定的误差,比如在字串“以前高手好久不见”中找“以前是高手”也能成功。具体地说,错误可以有三种类型:加字符(以前也是高手)、漏字符(以前高手)和替换字符(以前石膏手)。下面的函数在text中查找子串pat,最多允许有k个错误。返回的是匹配的终点(我还没想好如何确定起点,呵呵)。
至于算法的原理,现在一下子说不清楚,只能说这是一个非确定性有限自动机,以后有时间的话再详细介绍。有兴趣的话可以自己去看文章《Faster Approximate String Matching》, Algorithmica (1999) 23: 127-158。
算法的限制:(m-k)*(k+2) <= 64, 这里m是子串的长度。那个64是因为哦用了64位整数来编码自动机的状态。如果允许两个错误,则子串最长为18个字符,对一般应用来说足够了。
好了,废话少说,看算法吧。看不懂?没事了,哦也是半懂半不懂的。
char* amatch(const char* text, const char* pat, int k)
{
int m = strlen(pat);
assert(m-k>0);
assert((m-k)*(k+2)<= 64);
int j;
__int64 Din = 0;
__int64 M1 = 0;
__int64 M2 = 0;
__int64 M3 = 0;
__int64 G = 1 << k;
int onekp1 = (1 << (k+1)) - 1;
for (j=0; j<m-k; j++)
{
Din = (Din << (k+2))|onekp1;
M1 = (M1 << (k+2))|1;
if (j < m-k-1)
M2 = (M2 << (k+2)) | 1;
}
M2=(M2<<(k+2))|onekp1;
__int64 D=Din;
const char* s=text;
int c=*s++;
while(c)
{
int found=0;
const char* sp=pat;
for(j=0;j<k+1;j++)
{
int cp=*sp++;
if(c==cp)
{
found=1;
break;
}
}
if(found)
{
do
{
__int64 tc = 0;
const char* sp = pat;
for (j=0; j<m; j++)
{
int cp = *sp++;
if (c!=cp)
c|=(1<<j);
}
__int64 Tc = 0;
for (j=0; j<m-k; j++)
Tc = (Tc<<(k+2))|((tc>>j)&onekp1);
__int64 x = (D>>(k+2))|Tc;
D=((D<<1)|M1)&((D<<(k+3))|M2)&(((x+M1)^x)>>1)&Din;
if((D & G) == 0)
return (char*)s;
if(D != Din)
c = *s++;
}
while ( D != Din && c);
}
if (c)
c = *s++;
}
return NULL;
}
英雄
C、C++ (2003-10-29 13:00:21)
字符串的近似匹配,就是允许在匹配时有一定的误差,比如在字串“以前高手好久不见”中找“以前是高手”也能成功。具体地说,错误可以有三种类型:加字符(以前也是高手)、漏字符(以前高手)和替换字符(以前石膏手)。下面的函数在text中查找子串pat,最多允许有k个错误。返回的是匹配的终点(我还没想好如何确定起点,呵呵)。
至于算法的原理,现在一下子说不清楚,只能说这是一个非确定性有限自动机,以后有时间的话再详细介绍。有兴趣的话可以自己去看文章《Faster Approximate String Matching》, Algorithmica (1999) 23: 127-158。
算法的限制:(m-k)*(k+2) <= 64, 这里m是子串的长度。那个64是因为哦用了64位整数来编码自动机的状态。如果允许两个错误,则子串最长为18个字符,对一般应用来说足够了。
好了,废话少说,看算法吧。看不懂?没事了,哦也是半懂半不懂的。
char* amatch(const char* text, const char* pat, int k)
{
int m = strlen(pat);
assert(m-k>0);
assert((m-k)*(k+2)<= 64);
int j;
__int64 Din = 0;
__int64 M1 = 0;
__int64 M2 = 0;
__int64 M3 = 0;
__int64 G = 1 << k;
int onekp1 = (1 << (k+1)) - 1;
for (j=0; j<m-k; j++)
{
Din = (Din << (k+2))|onekp1;
M1 = (M1 << (k+2))|1;
if (j < m-k-1)
M2 = (M2 << (k+2)) | 1;
}
M2=(M2<<(k+2))|onekp1;
__int64 D=Din;
const char* s=text;
int c=*s++;
while(c)
{
int found=0;
const char* sp=pat;
for(j=0;j<k+1;j++)
{
int cp=*sp++;
if(c==cp)
{
found=1;
break;
}
}
if(found)
{
do
{
__int64 tc = 0;
const char* sp = pat;
for (j=0; j<m; j++)
{
int cp = *sp++;
if (c!=cp)
c|=(1<<j);
}
__int64 Tc = 0;
for (j=0; j<m-k; j++)
Tc = (Tc<<(k+2))|((tc>>j)&onekp1);
__int64 x = (D>>(k+2))|Tc;
D=((D<<1)|M1)&((D<<(k+3))|M2)&(((x+M1)^x)>>1)&Din;
if((D & G) == 0)
return (char*)s;
if(D != Din)
c = *s++;
}
while ( D != Din && c);
}
if (c)
c = *s++;
}
return NULL;
}
相关文章推荐
- 删除特定位置前面的字符串c++代码实例及运行结果
- 删除特定位置前面的字符串c++代码实例及运行结果
- 字符串近似匹配算法
- 算法代码带有通配符的字符串和另一个字符串进行匹配
- 删除特定位置前面的字符串c++代码实例及运行结果
- 删除特定位置前面的字符串c++代码实例及运行结果
- C++ 直方图匹配算法代码
- 括号匹配算法的C++代码实现
- c语言同名标靶点自动匹配算法实现实例代码
- 删除特定位置前面的字符串c++代码实例及运行结果
- 编辑距离 算法详述计算两个字符串差异 c++代码
- 程序员代码面试指南:IT名企算法与数据结构题目最优解-字符串问题:C/C++语言实现
- C++ 直方图匹配算法代码
- C++ 字符串去重排序实例代码
- 删除特定位置前面的字符串c++代码实例及运行结果
- 删除特定位置前面的字符串c++代码实例及运行结果
- [算法]简单的字符串近似匹配算法实现
- C++ 直方图匹配算法代码
- 删除特定位置前面的字符串c++代码实例及运行结果
- 聚类方法:DBSCAN算法研究(3)--C++代码实现及与matlab实例结果比较