您的位置：首页 > 理论基础 > 计算机网络

[CareerCup] 10.5 Web Crawler 网络爬虫

2015-10-08 22:51 417 查看

10.5 If you were designing a web crawler, how would you avoid getting into infinite loops?

这道题问如果让我们设计一个网络爬虫，怎么样才能避免进入无限循环。那么何谓无限循环呢，如果我们将网络看做一个图Graph，无限循环就是当存在环Circle时可能发生的情况。当我们用BFS来进行搜索时，每当我们访问过一个网站，我们将其标记为已访问过，下次再遇到直接跳过。那么如何定义访问过呢，是根据其内容还是根据其URL链接呢，根据URL链接更能会有多个链接指向同一个网站的情况，根据内容可能某个网站会有随机生成内容的模块，所以一个比较好的解决方案是根据相似度来确定，即既包括内容又包括URL链接，下面我们来看具体如何实现：

1. 打开网页并根据特定的子模块和URL链接生成一个页面签名

2. 访问数据库看这个页面签名是否最近被访问过

3. 如果最近被访问过，将这个网页添加到数据库中低优先级的位置

4. 如果没有，则访问此网站并将连接加入数据库

如果是对于一个小型系统，比如局域网，我们可以对每个页面设一个让页面接受访问的最小优先级。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航