您的位置：首页 > 其它

hash数组的一个简单应用

2007-12-19 23:32 246 查看

转载时请注明出处和作者联系方式：http://blog.csdn.net/mimepp
作者联系方式：YU TAO <yut616 at sohu dot com>

hash一个貌似比较复杂的东西，实际上理解起来并不那么夸张，这里做个笔记。

hash，中文翻译成杂乱的东西，有人也叫它杂凑，或者翻译成什么都不是的音译“哈希”。

简单说来，hash就是为了把一个复杂的字串，通过一定的转换，得到一个简单的数字（通常是数字）。
如"abcd"用各个字符的值直接相加，再取对10的余数，既（a+b+c+d）%10，来得到一个数字，比方说结果为5，那么这个5就能在一定意义上代表这个字串abcd了。或者说这个5也可以说是这个字串的一个标记性的东西，而且是简化了的标记，所以又有人叫这个5为字串的摘要，或指纹。
这个5，有一个好的用处就是可以作为一个数组的下标来用，如我自己构造一个指针数组void* hash_array[10]，那么我就可以把5那个位置上填上一个指针，如指向abcd字串。
这样的话，我如果要去查询一个字串是否存在，就不需要对一个数组使用字符串循环对比这样的慢操作，而直接先得到某个字串的hash值，再用这个hash值，在数组下标里直接找，这样速度要快上很多，特别是数据比较多的时候。

可以看到上面计算hash值时，出来的结果，可能并不是从0开始的，如我们算出的就是5。也就是说，这个5是在数组中的某个不确定的位置，或者可以叫做是一个杂凑出来的位置。其他位置可能一直就空着在。这就是这个数组或表格叫hash表的原因了。

但有个问题，上面的转换方法，直接相加，再取个余数，在字符串变为abdc时，结果得到的还是数字5。这个就是上面这个算法的一个问题了，即它不能保证一个唯一性。所以就出现了很多hash算法的研究，如MD4，MD5，SHA-1等，来保证唯一性。
但上面这个算法还是可以使用的，做法就是在abdc经过hash得到5后，去检查5是否被占用，如果占用了，那么就把数字加1，即为6，如果6没被占用，就填上值。如果后面某个字串算出一个值是6，但6已经被占用了，那么就再加1，再存。
取数据的时候，可以先算出hash值后，再看里面的内容是不是你想要的，如果不是，就加1去看，最后得到一个。

所以这里hash表的内容并不是象一般的数组最开始就组织好了的，而是后续慢慢往里增加的。
hash表里存的内容一般可以是一个指针，这个指针可以指向一个大的结构也是可以的。这个结构里可以有key, value信息。
hash表也可以不是数组，你可以把它组织成一个链表，链表里的node的结构中可以有一个参数就是那个数字的hash_value，用来快速查找用。

虽然在很多时候hash被用在加密等场合，但在一般的应用程序代码中，也可以用它来存贮简单的数据，这样代码的效率会高很多。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航