您的位置:首页 > 其它

计算两个字符串的编辑距离的快速算法

2013-04-30 23:03 316 查看
#include <stdio.h>

#include <stdlib.h>

#include <string.h>

/* 求两个数字的最小者 */

#define min(val1, val2) (((val1) < (val2)) ? (val1) : (val2))

/* 求三个数字的最小者 */

#define min3operators(val1, val2, val3) (min(val1, val2) < min(val1, val3)) ? min(val1, val2) : min(val1, val3)

/*****************************************************************

*********************计算两个字符串的编辑距离*********************

******************************************************************

快速算法步骤:

1.设置n为字符串s的长度。("GUMBO")

设置m为字符串t的长度。("GAMBOL")

如果n等于0,返回m并退出。

如果m等于0,返回n并退出。

构造两个向量v0[m+1] 和v1[m+1],串联0..m之间所有的元素。

2.初始化 v0 to 0..m。

3.检查 s (i from 1 to n) 中的每个字符。

4.检查 t (j from 1 to m) 中的每个字符,j等于1时设置v1[0]=i。

5.如果 s[i] 等于 t[j],则编辑代价为 0;

如果 s[i] 不等于 t[j],则编辑代价为1。

6.设置单元v1[j]为下面的最小值之一:

a.紧邻该单元上方+1:v1[j-1] + 1

b.紧邻该单元左侧+1:v0[j] + 1

c.该单元对角线上方和左侧+cost:v0[j-1] + cost

7.在完成迭代 (3, 4, 5, 6) 之后,v1[m]便是编辑距离的值。

*****************************************************************/

int levenshtein(const char *string1, const char *string2)

{

int n = 0;

int m = 0;

int i = 0;

int j = 0;

int cost = 0;

int *v0 = NULL;

int *v1 = NULL;

if(NULL == string1 || NULL == string2)

{

return -1;

}

n = strlen(string1);

m = strlen(string2);

if(0 == n)

{

return m;

}

if(0 == m)

{

return n;

}

v0 = (int *)malloc(sizeof(int) * (m + 1));

v1 = (int *)malloc(sizeof(int) * (m + 1));

for(i=0; i<= m; i++)

{

v0[i] = i;

}

for(i=1; i<= n; i++)

{

for(j=1; j<= m; j++)

{

if(1 == j)

{

v1[0] = i;

}

if(string1[i-1] == string2[j-1])

{

cost = 0;

}

else

{

cost = 1;

}

v1[j]=min3operators((v1[j-1]+1), (v0[j]+1), (v0[j-1])+cost);

}

for(j=0; j<= m; j++)

{

v0[j] = v1[j];

}

}

return v1[m];

}

int main()

{

printf("levenshtein:%d\n", levenshtein("GUMBOLUabcdefgg", "GAMBOLabcedefdgh"));

printf("min3operators:%d\n", min3operators(9, 8, 7));

return 0;

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: