您的位置：首页 > 其它

哈希算法在模式匹配问题中的应用

2017-03-27 23:10 369 查看

哈希：

哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能的，所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。

模式匹配：

模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。

利用哈希算法解决模式匹配问题，定义模式匹配问题为在 S 字符串中寻找 T 字符串出现的次数及每次出现的起始位置。

首先朴素算法：

计算出 T 串的哈希值，与 S 串中每一个连续且长度为 |T| 的字符串进行哈希值比较，若 S 中每个字符串都重新开始计算哈希值，复杂度为 O(|T|∗|S|)

优化算法：

通过特殊设计的哈希函数，使得可以在 O(1) 的时间复杂度内由 hash[i,j] ，递推出 hash[i+1,j+1]。复杂度降为 O(n+m)

哈希函数设计：

hash[i,j]={∑x=0j−iBasej−i−x∗S[x+i]}%mod

其中：

hash[i,j] ，表示下标从 i 到 j 这一段的哈希值

Base ，是一个任取的基数

S[i] ，表示字符串第 i 位字符的编码

mod ，是一个任取 ( 最好为质数 ) 的足够大的值，是哈希值的取值范围

由取模运算的性质可以推出

hash[i+1,j+1]={hash[i,j]−Basej−i∗S[i]}Base+S[j+1]

代码如下：

题目为HDOJ 1686 Oulipo

http://acm.hdu.edu.cn/showproblem.php?pid=1686

#define author Reskip
#define uint unsigned int
#define maxn 1000005
uint base = 13331;
uint debase;
char data[maxn];
uint cmp;
uint tcmp;

int main()
{
int t;
cin >> t;
while (t--)
{
int ans = 0;
int len = 0;
debase = 1;
cmp = 0;
tcmp = 0;

scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
len++;
cmp *= base;
debase *= base;
cmp += data[i];
}
scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
tcmp *= base;
tcmp += data[i];
if (i >= len)
{
tcmp -= data[i - len] * debase;
}
if (tcmp == cmp)
{
ans++;
}
}
cout << ans << "\n";
}
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法哈希字符串字符串匹配模式匹配算法

相关文章推荐

新的分享

章节导航