为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次 也不是要是2^i -1
2015-01-16 12:11
274 查看
为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次
下面的截屏来自CLRS的11章 关于哈希函数的讨论
之前我就一直困惑,为什么
When using the division method, we usually avoid certain values of m. For example, m should not be a power of 2, since ifm = 2^p, then H(k) is just the
p lowest-order bits ofk. Unless we know that all low-order p-bit patterns are equally likely, we are better off designing the hash function to depend on all the bits of the key.
-----------------------------------------------------------------------------------------------------------
为嘛就是尽量要避免 k%m中m不要是2的幂次呢?
如果2的i次幂 2^i = 10... .... 0 从1后面的第一个0开始到结束,一共有i个0
如果用k%m进行取余数操作,m = 2^i, 结果就是把k 截断保留低位的i位。这对于hash来说,是很“糟糕的特性”
问题的根结在于hash要有很好的特性,就是要避免碰撞,避免碰撞就要分布均匀的插入
直接的截断是很粗鲁的方式,无法保证插入数据能够均匀的分布于hash table中。
-----------------------------------------------------------------------------------------------------------
为嘛就是要避免k %m 中m不要是2幂次-1呢(2^i -1)?
对于不同的字符串S1 = “abcd” S2 = "adcb"
他们的hash值是相同的!但是他们是不同的字符串!他们会冲突!
怎么办呢?考虑字符串中的单个字符的顺序,对各个字符串进行加权,而加权的具体方式就是他们所处于字符串中的位。比方说字符串
S1 求值可以这样 'a'*2^(0) + 'b'* (2^(1)) + 'c' * (2^2) + 'd' * (2^3)
S2 求值可以这样 'a'*2^(0) + 'd'* (2^(1)) + 'c' * (2^2) + 'b' * (2^3)
两者的字面值就不一样了。这样就完了?可以确保不会冲突? 没完呢。。。
证明很酷帅
摄于 二零一五年一月五日 晚.
下面的截屏来自CLRS的11章 关于哈希函数的讨论
之前我就一直困惑,为什么
When using the division method, we usually avoid certain values of m. For example, m should not be a power of 2, since ifm = 2^p, then H(k) is just the
p lowest-order bits ofk. Unless we know that all low-order p-bit patterns are equally likely, we are better off designing the hash function to depend on all the bits of the key.
-----------------------------------------------------------------------------------------------------------
为嘛就是尽量要避免 k%m中m不要是2的幂次呢?
如果2的i次幂 2^i = 10... .... 0 从1后面的第一个0开始到结束,一共有i个0
如果用k%m进行取余数操作,m = 2^i, 结果就是把k 截断保留低位的i位。这对于hash来说,是很“糟糕的特性”
问题的根结在于hash要有很好的特性,就是要避免碰撞,避免碰撞就要分布均匀的插入
直接的截断是很粗鲁的方式,无法保证插入数据能够均匀的分布于hash table中。
-----------------------------------------------------------------------------------------------------------
为嘛就是要避免k %m 中m不要是2幂次-1呢(2^i -1)?
对于不同的字符串S1 = “abcd” S2 = "adcb"
他们的hash值是相同的!但是他们是不同的字符串!他们会冲突!
怎么办呢?考虑字符串中的单个字符的顺序,对各个字符串进行加权,而加权的具体方式就是他们所处于字符串中的位。比方说字符串
S1 求值可以这样 'a'*2^(0) + 'b'* (2^(1)) + 'c' * (2^2) + 'd' * (2^3)
S2 求值可以这样 'a'*2^(0) + 'd'* (2^(1)) + 'c' * (2^2) + 'b' * (2^3)
两者的字面值就不一样了。这样就完了?可以确保不会冲突? 没完呢。。。
证明很酷帅
摄于 二零一五年一月五日 晚.
相关文章推荐
- 为什么选择使用 Dropbox 而不是其他品牌同步工具(不要加上多余的功能,要极致和专注)
- 为什么尽量不要让时间有富裕的员工去做一些测试?
- .NET框架:为什么我们要尽量使用框架内建的功能,而不是重新发明
- 一起谈.NET技术,.NET框架:为什么我们要尽量使用框架内建的功能,而不是重新发明
- 为什么尽量不要使用CSS Expression
- 为什么尽量使用初始化而不要在构造函数里赋值
- .NET框架:为什么我们要尽量使用框架内建的功能,“.NET研究”而不是重新发明
- 为什么尽量不要使用using namespace std?
- 为什么尽量不要使用CSS Expression
- 实体类的属性的数据类型问题(model的数据类型尽量不要设为int)
- 为什么MVC不是一种设计模式?
- TCP为什么要三次握手,不是两次四次?
- Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
- Hibernate Tip: 为什么要把变量类型设置为Long, Integer,而不是long, int
- Android为什么要设计出Bundle而不是直接使用HashMap来进行数据传递 Android内存优化(使用SparseArray和ArrayMap代替HashMap)
- 为什么ECMAScript 5不是ECMAScript 4
- 为什么要使用SLF4J而不是Log4
- 为什么使用apache-httpclient而不是jdk-urlconnection
- 为什么不要做iPhone上面的应用
- 云平台 为什么推荐使用小VM 而不是大VM独占宿主机的方式部署游戏服?