您的位置:首页 > 其它

搜索引擎爬虫网页优先抓取策略

2014-04-16 16:01 225 查看
搜索引擎爬虫网页优先抓取策略

作为一个搜索引擎优化人员至少要懂得搜索引擎的一些原理,如搜索引擎基本的四个系统,爬虫抓取策略、如何辨别网页之间的相似度以及爬虫与网站之间的交互等等,推荐阅读《走进搜索引擎》如果需要了解更多的技术原理可以参考其他书籍。

公司部门近期每周会进行2-3次的seo培训,上周培训内容是《搜索引擎信息抽取及网页查重》的一些基本知识,由我讲解。由于时间关系,和准备工作不是很充分,再加上内容比较抽象以及新人基础比较薄弱,大家理解的都比较困难,大部分原因在我这边,但是在每次的培训中都能发现一些提升团队技术和提高自身能力的一些方法。

下周讲解搜索引擎优先抓取策略,先简单的温故下基本知识

网页抓取优先策略简单的可以理解为“页面选择的问题”也就是说搜索引擎爬虫尽可能地首先抓取重要性的网页,那么衡量网页的的重要性以及如何量化重要性?我们可以从以下3个方面考虑。

衡量网页的重要性可以从链接的欢迎度,链接重要度和平均链接深度

定义链接的欢迎度IB(P),它主要由反向链接的数量和质量决定,从数量上直观的讲,一个网页有更多的链接指向它,那么表示其他网页对其的认可,同时这个网页被网民访问的机会也就越大,再次考察质量,如果被越多重要性高的网页指向,那么其重要性也就越高,这里便会出现一个问题,如果不考虑质量的话,就会出现局部最优,而不是全局最优的问题,最典型的就是作弊网页。但然这边会出现很多的疑问,又可以细分,不想误人子弟,至于外链做多少,怎样去做,大家可以自己去测试,我只能从宏观的角度去说外链的数量和质量两者是同等重要,搜索引擎判断网页质量一定是从多方面综合计算的。

定义链接重要度IL(p)它是一关于url字符串的函数,仅仅考察字符串本身,链接重要度主要通过一些模式,比如认为包含“.com” 或者“home”的url重要度高,以及具有较少斜杠(/)的url重要度高等。

定义平均链接深度为ID(p),表示在一个种子站点集合中每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的一个重要性指标,距离种子站点越近,被说明访问的机会越多,因此重要性越高,可以认为种子占地是那些重要性最高的网页。事实上,按照宽度优先的遍历规则则即可满足这种重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为i(p),由以上两个量化值线性决定。

i(p)=α*IB(p)+β*IL(p)

平均链接深度由宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够尽可能的把重要性的网页尽可能地抓取完,是合理科学的,最终被用户查询到的也往往是那些重要性高的网页。

互联网是动态变化的,比如搜索引擎如何抓取那些新增的网页?如何重返那些被修改了的网页? 如何发现那些被删除的网页?将会在《搜索引擎抓取策略之网页重访策略》中通过识别增加、修改、及删除网页这3种变化情况讲起。

本文来自:南通seo http://www.seo0513.com
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: