计算两个字符串的编辑距离的快速算法
2013-04-30 23:03
316 查看
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
/* 求两个数字的最小者 */
#define min(val1, val2) (((val1) < (val2)) ? (val1) : (val2))
/* 求三个数字的最小者 */
#define min3operators(val1, val2, val3) (min(val1, val2) < min(val1, val3)) ? min(val1, val2) : min(val1, val3)
/*****************************************************************
*********************计算两个字符串的编辑距离*********************
******************************************************************
快速算法步骤:
1.设置n为字符串s的长度。("GUMBO")
设置m为字符串t的长度。("GAMBOL")
如果n等于0,返回m并退出。
如果m等于0,返回n并退出。
构造两个向量v0[m+1] 和v1[m+1],串联0..m之间所有的元素。
2.初始化 v0 to 0..m。
3.检查 s (i from 1 to n) 中的每个字符。
4.检查 t (j from 1 to m) 中的每个字符,j等于1时设置v1[0]=i。
5.如果 s[i] 等于 t[j],则编辑代价为 0;
如果 s[i] 不等于 t[j],则编辑代价为1。
6.设置单元v1[j]为下面的最小值之一:
a.紧邻该单元上方+1:v1[j-1] + 1
b.紧邻该单元左侧+1:v0[j] + 1
c.该单元对角线上方和左侧+cost:v0[j-1] + cost
7.在完成迭代 (3, 4, 5, 6) 之后,v1[m]便是编辑距离的值。
*****************************************************************/
int levenshtein(const char *string1, const char *string2)
{
int n = 0;
int m = 0;
int i = 0;
int j = 0;
int cost = 0;
int *v0 = NULL;
int *v1 = NULL;
if(NULL == string1 || NULL == string2)
{
return -1;
}
n = strlen(string1);
m = strlen(string2);
if(0 == n)
{
return m;
}
if(0 == m)
{
return n;
}
v0 = (int *)malloc(sizeof(int) * (m + 1));
v1 = (int *)malloc(sizeof(int) * (m + 1));
for(i=0; i<= m; i++)
{
v0[i] = i;
}
for(i=1; i<= n; i++)
{
for(j=1; j<= m; j++)
{
if(1 == j)
{
v1[0] = i;
}
if(string1[i-1] == string2[j-1])
{
cost = 0;
}
else
{
cost = 1;
}
v1[j]=min3operators((v1[j-1]+1), (v0[j]+1), (v0[j-1])+cost);
}
for(j=0; j<= m; j++)
{
v0[j] = v1[j];
}
}
return v1[m];
}
int main()
{
printf("levenshtein:%d\n", levenshtein("GUMBOLUabcdefgg", "GAMBOLabcedefdgh"));
printf("min3operators:%d\n", min3operators(9, 8, 7));
return 0;
}
#include <stdlib.h>
#include <string.h>
/* 求两个数字的最小者 */
#define min(val1, val2) (((val1) < (val2)) ? (val1) : (val2))
/* 求三个数字的最小者 */
#define min3operators(val1, val2, val3) (min(val1, val2) < min(val1, val3)) ? min(val1, val2) : min(val1, val3)
/*****************************************************************
*********************计算两个字符串的编辑距离*********************
******************************************************************
快速算法步骤:
1.设置n为字符串s的长度。("GUMBO")
设置m为字符串t的长度。("GAMBOL")
如果n等于0,返回m并退出。
如果m等于0,返回n并退出。
构造两个向量v0[m+1] 和v1[m+1],串联0..m之间所有的元素。
2.初始化 v0 to 0..m。
3.检查 s (i from 1 to n) 中的每个字符。
4.检查 t (j from 1 to m) 中的每个字符,j等于1时设置v1[0]=i。
5.如果 s[i] 等于 t[j],则编辑代价为 0;
如果 s[i] 不等于 t[j],则编辑代价为1。
6.设置单元v1[j]为下面的最小值之一:
a.紧邻该单元上方+1:v1[j-1] + 1
b.紧邻该单元左侧+1:v0[j] + 1
c.该单元对角线上方和左侧+cost:v0[j-1] + cost
7.在完成迭代 (3, 4, 5, 6) 之后,v1[m]便是编辑距离的值。
*****************************************************************/
int levenshtein(const char *string1, const char *string2)
{
int n = 0;
int m = 0;
int i = 0;
int j = 0;
int cost = 0;
int *v0 = NULL;
int *v1 = NULL;
if(NULL == string1 || NULL == string2)
{
return -1;
}
n = strlen(string1);
m = strlen(string2);
if(0 == n)
{
return m;
}
if(0 == m)
{
return n;
}
v0 = (int *)malloc(sizeof(int) * (m + 1));
v1 = (int *)malloc(sizeof(int) * (m + 1));
for(i=0; i<= m; i++)
{
v0[i] = i;
}
for(i=1; i<= n; i++)
{
for(j=1; j<= m; j++)
{
if(1 == j)
{
v1[0] = i;
}
if(string1[i-1] == string2[j-1])
{
cost = 0;
}
else
{
cost = 1;
}
v1[j]=min3operators((v1[j-1]+1), (v0[j]+1), (v0[j-1])+cost);
}
for(j=0; j<= m; j++)
{
v0[j] = v1[j];
}
}
return v1[m];
}
int main()
{
printf("levenshtein:%d\n", levenshtein("GUMBOLUabcdefgg", "GAMBOLabcedefdgh"));
printf("min3operators:%d\n", min3operators(9, 8, 7));
return 0;
}
相关文章推荐
- 利用编辑距离(Edit Distance)计算两个字符串的相似度
- Edit Distance(编辑距离)算法。计算两个字符串的相似程度。
- 基于动态规划(dynamic programming)的计算两个字符串的编辑距离
- 利用编辑距离(Edit Distance)计算两个字符串的相似度
- 编辑距离 算法详述计算两个字符串差异 c++代码
- 计算两个字符串编辑距离
- 编辑距离(LD)计算两个字符串相似度
- Edit Distance(编辑距离)算法。计算两个字符串的相似程度。
- 编辑距离LCS算法详解:Levenshtein Distance算法计算两个字符串的相似度
- 求算两个字符串之间的编辑距离
- 求两个字符串的编辑距离
- 基于编辑距离和最长公共子串计算字符串相似度
- 计算字符串距离(编辑距离)
- DP求两个字符串的编辑距离
- 两个字符串之间的最短编辑距离
- 求两个字符串的编辑距离
- 两个字符串编辑距离
- 求算两个字符串之间的编辑距离
- 比较字符串总结:如果计算两个字符串的相似度或者距离
- Edit Distance 计算两个字符串的变化距离 动态规划