您的位置：首页 > 运维架构

找到100亿个URL中的重复URL以及搜索词汇的topK问题

2016-07-27 18:06 211 查看

有一个包含100亿个URL的文件，假设每个URL占用64B，请找出其中所有重复的URL。

这类问题一种解决方案（我只想到了这一种）

将文件通过哈希函数成多个小的文件，由于哈希函数所有重复的URL只可能在同一个文件中，在每个文件中利用一个哈希表做次数统计。就能找到重复的URL。这时候要注意的就是给了多少内存，我们要根据文件大小结合内存大小决定要分割多少文件

topK问题和重复URL其实是一样的重复的多了才会变成topK，其实就是在上述方法后获得所有的重复URL排个序，但是有点没必要，因为我们要找topK时，最极端的情况也就是topK在用一个文件中，所以我们只需要每个文件的topK个URL，之后再进行排序，这样就比找出全部的URL在排序方法优秀。还有一个topK个URL到最后还是需要排序，所以我们在找每个文件的topK时，是否只需要找到topK个，其中顺序不用管，那么我们就可以用大小为K的小根堆遍历哈希表。这样又可以降低查找的时间。

这里我来讲一下为什么用小根堆。

小根堆是一棵完全二叉树存在如下特性

(1)若树根结点存在左孩子，则根结点的值(或某个域的值)小于等于左孩子结点的值(或某个域的值)；

(2)若树根结点存在右孩子，则根结点的值(或某个域的值)小于等于右孩子结点的值(或某个域的值)；

(3)以左、右孩子为根的子树又各是一个堆。

建最小堆的过程,从最后一个叶节点的父节点开始,往前逐个检查各个节点,看其是不是符合父节点小于它的子节点,如果不小于,则将它的子节点中最小的那个节点与父节点对换;否则,不交换,

限于篇幅，我将在下一篇中，写一下最小堆的c++实现

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 内存哈希函数最小堆空间限制

相关文章推荐

新的分享

章节导航