网络爬虫之url等高效率去重原理
2015-11-12 00:00
288 查看
摘要: 让你的处理时间从几十分钟变到几秒
布隆过滤器用于字符串去重复,比如网络爬虫抓取时URL去重、邮件提供商反垃圾黑名单Email地址去重。等等。用哈希表也可以用于元素去重,但是占用空间比较大,而且空间使用率只有50%。
布隆过滤器只占哈希表的1/8或1/4的空间复杂度,就能解决同样的问题,但是有一定的误判,而且不能删除已有元素。元素越多,误报率越大,但是不会漏报。对于还需要删除的布隆过滤器,还有Counter Bloom Filter,这个是布隆过滤器的变体,可以删除元素。
布隆过滤器的原理
布隆过滤器需要的是一个一维数组(和位图类似)和K个映射函数(和Hash表类似),在初始状态时,对于长度为m的位数组array,它的所有位被置0。
对于有n个元素的集合S={S1,S2...Sn},通过k个映射函数{f1,f2,......fk},将集合S中的每个元素Sj(1<=j<=n)映射为K个值{g1,g2...gk},然后再将位数组array中相对应的array[g1],array[g2]......array[gk]置为1:
如果要查找某个元素item是否在S中,则通过映射函数{f1,f2,...fk}得到k个值{g1,g2...gk},然后再判断array[g1],array[g2]...array[gk]是否都为1,若全为1,则item在S中,否则item不在S中。这个就是布隆过滤器的实现原理。
前面说到过,布隆过滤器会造成一定的误判,因为集合中的若干个元素通过映射之后得到的数值恰巧包括g1,g2,...gk,在这种情况下可能会造成误判,但是概率很小。
布隆过滤器用于字符串去重复,比如网络爬虫抓取时URL去重、邮件提供商反垃圾黑名单Email地址去重。等等。用哈希表也可以用于元素去重,但是占用空间比较大,而且空间使用率只有50%。
布隆过滤器只占哈希表的1/8或1/4的空间复杂度,就能解决同样的问题,但是有一定的误判,而且不能删除已有元素。元素越多,误报率越大,但是不会漏报。对于还需要删除的布隆过滤器,还有Counter Bloom Filter,这个是布隆过滤器的变体,可以删除元素。
布隆过滤器的原理
布隆过滤器需要的是一个一维数组(和位图类似)和K个映射函数(和Hash表类似),在初始状态时,对于长度为m的位数组array,它的所有位被置0。
对于有n个元素的集合S={S1,S2...Sn},通过k个映射函数{f1,f2,......fk},将集合S中的每个元素Sj(1<=j<=n)映射为K个值{g1,g2...gk},然后再将位数组array中相对应的array[g1],array[g2]......array[gk]置为1:
如果要查找某个元素item是否在S中,则通过映射函数{f1,f2,...fk}得到k个值{g1,g2...gk},然后再判断array[g1],array[g2]...array[gk]是否都为1,若全为1,则item在S中,否则item不在S中。这个就是布隆过滤器的实现原理。
前面说到过,布隆过滤器会造成一定的误判,因为集合中的若干个元素通过映射之后得到的数值恰巧包括g1,g2,...gk,在这种情况下可能会造成误判,但是概率很小。
相关文章推荐
- #iptables实践# 之 MSS Clamping
- 2015年下半年网络工程师考试真题首发
- 2015年下半年网络工程师考试真题首发
- 2015年网络工程师考试上午部分真题
- 2015年下半年网络工程师考试真题、网络规划设计师真题即将发布
- AJAX—核心XMLHttpRequest对象
- 使用https出错javax.net.ssl.SSLHandshakeException: Handshake failed
- 网络流小结
- beego框架——快速开发go应用的http框架
- 操作系统,windows编程,网络,socket
- 操作系统,windows编程,网络,socket
- 深度学习概述:从感知机到深度网络
- 爬虫参考资料
- 解决网络丢包问题及故障判断方法
- iOS开发网络篇—GET请求和POST请求
- HttpServlet
- 使用xcode7进行http请求
- httpclient笔记(一)
- 不要自称是程序员,我十多年的 IT 职场总结 http://blog.jobbole.com/94148/
- TCP/IP协议之三次握手与四次挥手