您的位置:首页 > 其它

哈希算法在模式匹配问题中的应用

2017-03-27 23:10 369 查看
哈希:

哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。

模式匹配:

模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。

利用哈希算法解决模式匹配问题,定义模式匹配问题为在 S 字符串中寻找 T 字符串出现的次数及每次出现的起始位置。

首先朴素算法:

计算出 T 串的哈希值,与 S 串中每一个连续且长度为 |T| 的字符串进行哈希值比较,若 S 中每个字符串都重新开始计算哈希值,复杂度为 O(|T|∗|S|)

优化算法:

通过特殊设计的哈希函数,使得可以在 O(1) 的时间复杂度内由 hash[i,j] ,递推出 hash[i+1,j+1]。复杂度降为 O(n+m)

哈希函数设计:

hash[i,j]={∑x=0j−iBasej−i−x∗S[x+i]}%mod

其中:

hash[i,j] ,表示下标从 i 到 j 这一段的哈希值

Base ,是一个任取的基数

S[i] ,表示字符串第 i 位字符的编码

mod ,是一个任取 ( 最好为质数 ) 的足够大的值,是哈希值的取值范围

由取模运算的性质可以推出

hash[i+1,j+1]={hash[i,j]−Basej−i∗S[i]}Base+S[j+1]

代码如下:

题目为HDOJ 1686 Oulipo

http://acm.hdu.edu.cn/showproblem.php?pid=1686

#define author Reskip
#define uint unsigned int
#define maxn 1000005
uint base = 13331;
uint debase;
char data[maxn];
uint cmp;
uint tcmp;

int main()
{
int t;
cin >> t;
while (t--)
{
int ans = 0;
int len = 0;
debase = 1;
cmp = 0;
tcmp = 0;

scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
len++;
cmp *= base;
debase *= base;
cmp += data[i];
}
scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
tcmp *= base;
tcmp += data[i];
if (i >= len)
{
tcmp -= data[i - len] * debase;
}
if (tcmp == cmp)
{
ans++;
}
}
cout << ans << "\n";
}
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息