您的位置:首页 > 编程语言 > Go语言

Google索引新站的能力不如百度?

2009-04-09 14:06 218 查看
  本人以前是Google的忠实使用者,但我也不排斥百度,甚至常见的搜索都用百度。理由很简单,百度搜索一些生活中的小问题,还是很好用的,而且速度快,可以使用其页面缓存功能。至于Google,一般是搜索英文内容,或者百度实在搜索不到满意内容的时候才会用它。Google的技术不容置疑,Google的产品当然也是引领着当今互联网的潮流。本人曾经研究过搜索引擎的相关技术,深知其中的水深水浅。当然,百度也不是吃素的,技术那也是相当了得的。Google在全世界范围来说,是绝对老大。但这个绝对老大在中国却只能甘当万年老二???其实我是一直坚信Google能在某天超过百度,在中国也做一回老大。但或许这只是痴人说梦而已,Google在中国远没有这么强势。个人感觉,中国只是Google全球战略的一部分,而对百度而言,中国就是全部。从这两者对中国市场的态度来看,也能部分理解Google为什么在中国这么疲软。再者,据朋友说,百度在中国的渠道做得很好,好到已经让Google的人开始有些绝望了。可能有的人会说百度不太地道,但这就是事实。

  好了,扯得有点远了,还是言归正传吧,说说我发现的问题。从我们网站上线也快有一个月了,其间通过自己和朋友写Blog的形式,在网上也存在不少介绍我们网站的文章和链接。由于推广的需要和本身对此比较感兴趣,我一直在观察各大搜索引擎索引我们网站的能力。这里主要考察索引的速度,精度,以及索引的网页数目。对比发现,百度的索引速度是最快的,上线不到一周就能检索到我们网站的首页,其次是雅虎,搜狗,有道。至于Google和Live Search到现在也几乎无法搜索到。我仔细分析了网站日志,发现Baidubot是最勤快的,每天都是光顾网站数次。Sogou也比较勤快。一开始,我怎么也没看到标识为Googlebot的爬虫,我再仔细看了我的robots.txt文件,上面明明写着欢迎各大爬虫光临的啊。突然,有一天看到有一个表示为Mozilla 5.0的bot在短时间内发送了大量的请求过来,我一查IP,说是“北京飞翔人信息技术有限公司”,好像是赶集网的IP。到网上一查,很多人说这就是Google的爬虫!!狂汗了一把,Google的爬虫为什么不标识为Googlebot呢?而且,作为一个爬虫程序,为什么会在这么段的时间里发送了大量的请求呢?这种高强度的爬取页面,肯定会给网站带来一定的压力。就在昨天,我看到了Googlebot的身影,明确标识为Googlebot的一个爬虫。我相信,这就是Google的爬虫。这里我有一个猜想,是不是对于刚上线的新网站,Google会用一个二三流的爬虫过来,能爬几个网页是几个网页。等你网站存在一段时间了,再用他们正式的爬虫过来。我估计,这也是Google索引新网站不如百度的原因吧。不知道,Google为什么会对这样的新网站区别对待。至于其他几个搜索引擎,像雅虎,搜狗,有道,Live search什么的,索引的频率也不是很高。感觉还是百度对新站,至少是新的中文站点敏捷一些。当然,这只是根据我的经验得出的结论,不知道其他站长是否有类似的经历,不妨大家一起来分享一下。不妨大家探讨一下如何能让Google快速索引你的新网站?

其他文章导读:

1. 史上最强的美名腾智能起名成功发布
2. 美名腾界面升级了
3. 探密诡异的HTTP Referer总是为空的原因
4. 为你的网站定制一套统一的异常处理机制
5. 由ViewStateException: The client disconnected想到的
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: