您的位置:首页 > 理论基础 > 计算机网络

网络爬虫的选择策略

2011-03-03 15:21 459 查看
选择策略
就现在网络资源的大小而言,即使大型搜索引擎也只能获取网络上可得到资源的一小部分。一项2005年的研究显示一个大型搜索引擎检索内容不超过可检索内容的40%-70%。[6]由 Dr. Steve Lawrence和 Lee Giles在1999共同做的一项研究指出,没有一个搜索引擎抓取的内容达到网络的16%。[7] 网络爬虫通常仅仅下载网页内容的一部分,但是大家都还是强烈要求下载的部分包括最多的相关页面,而不仅仅是一个随机简单的网页。

这就要求一个公共标准来区分网页的重要程度,一个页面的重要程度与其自身的质量有关,与链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的垂直搜索引擎则限制在一级域名或者固定页面上)有关。设计一个好的搜索策略还有另外的困难,它必须在使用局部信息工作,因为整个页面的集合在抓取时是未知的。

Cho等人做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。[8]排序的方法使用了宽度优先,反向链接计数和部分pagerank算法。其中一个结论显示,如果你想要在抓取过程中优先下载pagerank高的页面,那么,部分PageRank策略是比较好的,其次是宽度优先和反向链接计数。当时,这样的结果仅仅是针对一个简单的域名。Chao还在斯坦福大学完成了他关于网页抓取的博士论文。[9]
Najork和Wiener采用实际的爬虫,对3.28亿个网页,采用宽度优先顺序进行爬行。[10] 他们发现宽度优先会较早的抓到PageRank高的页面(但是他们与其他策略进行对比研究)。作者给出的解释是:“最重要的页面会有很多主机连接到它们,并且那些链接会较早的发现,而不用考虑从哪一个主机或页面开始的。”
Abiteboul设计了一种基于OPIC算法(在线页面重要指数)的抓取战略。[11] 在OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均分给它所指向的页面。这种算法与Pagerank估算相似,但是它的速度更快,并且可以一步完成。OPIC的程序首先抓取抓取前沿中获取权值最大的页面。实验是在10万个幂指分布的模拟页面中进行的。当时,实验仍然没有和其它策略进行比较,也没有在真正的WEB页面测试。
Boldi等人的模拟检索实验进行在 从.it域名上取下的4000万个页面和从webbase得到的1 Daneshpajouh等人设计了一个用于寻找好种子的社区。.[15]它们从来自不同社区的高PageRank页面开始检索的方法,迭代次数明显小于使用随机种子的检索。使用这种方式,可以从以前抓取页面之中找到好的种子,使用这些种子是十分有效的。
亿个页面上,针对于深度优先测试宽度优先,随机序列和有序序列策略。比较基于在真实页面中pageRank处于局部抓取的情况计算出的值和pageRank真实值的接近程度。令人惊奇的是,一些计算pageRank很快的页面(特别明显的是使用宽度优先策略和有序序列的)仅仅达到很小的接近程度。[12][13]
Baeza-Yates等人在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验,比较若干个抓取策略。[14]结果显示OPIC策略和站点队列长度,都比宽度优先要好;并且如果可行的话,使用之前的爬行抓取结果来指导这次抓取,总是十分有效的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: