Google索引新站的能力不如百度?
2009-04-09 14:06
218 查看
本人以前是Google的忠实使用者,但我也不排斥百度,甚至常见的搜索都用百度。理由很简单,百度搜索一些生活中的小问题,还是很好用的,而且速度快,可以使用其页面缓存功能。至于Google,一般是搜索英文内容,或者百度实在搜索不到满意内容的时候才会用它。Google的技术不容置疑,Google的产品当然也是引领着当今互联网的潮流。本人曾经研究过搜索引擎的相关技术,深知其中的水深水浅。当然,百度也不是吃素的,技术那也是相当了得的。Google在全世界范围来说,是绝对老大。但这个绝对老大在中国却只能甘当万年老二???其实我是一直坚信Google能在某天超过百度,在中国也做一回老大。但或许这只是痴人说梦而已,Google在中国远没有这么强势。个人感觉,中国只是Google全球战略的一部分,而对百度而言,中国就是全部。从这两者对中国市场的态度来看,也能部分理解Google为什么在中国这么疲软。再者,据朋友说,百度在中国的渠道做得很好,好到已经让Google的人开始有些绝望了。可能有的人会说百度不太地道,但这就是事实。
好了,扯得有点远了,还是言归正传吧,说说我发现的问题。从我们网站上线也快有一个月了,其间通过自己和朋友写Blog的形式,在网上也存在不少介绍我们网站的文章和链接。由于推广的需要和本身对此比较感兴趣,我一直在观察各大搜索引擎索引我们网站的能力。这里主要考察索引的速度,精度,以及索引的网页数目。对比发现,百度的索引速度是最快的,上线不到一周就能检索到我们网站的首页,其次是雅虎,搜狗,有道。至于Google和Live Search到现在也几乎无法搜索到。我仔细分析了网站日志,发现Baidubot是最勤快的,每天都是光顾网站数次。Sogou也比较勤快。一开始,我怎么也没看到标识为Googlebot的爬虫,我再仔细看了我的robots.txt文件,上面明明写着欢迎各大爬虫光临的啊。突然,有一天看到有一个表示为Mozilla 5.0的bot在短时间内发送了大量的请求过来,我一查IP,说是“北京飞翔人信息技术有限公司”,好像是赶集网的IP。到网上一查,很多人说这就是Google的爬虫!!狂汗了一把,Google的爬虫为什么不标识为Googlebot呢?而且,作为一个爬虫程序,为什么会在这么段的时间里发送了大量的请求呢?这种高强度的爬取页面,肯定会给网站带来一定的压力。就在昨天,我看到了Googlebot的身影,明确标识为Googlebot的一个爬虫。我相信,这就是Google的爬虫。这里我有一个猜想,是不是对于刚上线的新网站,Google会用一个二三流的爬虫过来,能爬几个网页是几个网页。等你网站存在一段时间了,再用他们正式的爬虫过来。我估计,这也是Google索引新网站不如百度的原因吧。不知道,Google为什么会对这样的新网站区别对待。至于其他几个搜索引擎,像雅虎,搜狗,有道,Live search什么的,索引的频率也不是很高。感觉还是百度对新站,至少是新的中文站点敏捷一些。当然,这只是根据我的经验得出的结论,不知道其他站长是否有类似的经历,不妨大家一起来分享一下。不妨大家探讨一下如何能让Google快速索引你的新网站?
其他文章导读:
1. 史上最强的美名腾智能起名成功发布
2. 美名腾界面升级了
3. 探密诡异的HTTP Referer总是为空的原因
4. 为你的网站定制一套统一的异常处理机制
5. 由ViewStateException: The client disconnected想到的
好了,扯得有点远了,还是言归正传吧,说说我发现的问题。从我们网站上线也快有一个月了,其间通过自己和朋友写Blog的形式,在网上也存在不少介绍我们网站的文章和链接。由于推广的需要和本身对此比较感兴趣,我一直在观察各大搜索引擎索引我们网站的能力。这里主要考察索引的速度,精度,以及索引的网页数目。对比发现,百度的索引速度是最快的,上线不到一周就能检索到我们网站的首页,其次是雅虎,搜狗,有道。至于Google和Live Search到现在也几乎无法搜索到。我仔细分析了网站日志,发现Baidubot是最勤快的,每天都是光顾网站数次。Sogou也比较勤快。一开始,我怎么也没看到标识为Googlebot的爬虫,我再仔细看了我的robots.txt文件,上面明明写着欢迎各大爬虫光临的啊。突然,有一天看到有一个表示为Mozilla 5.0的bot在短时间内发送了大量的请求过来,我一查IP,说是“北京飞翔人信息技术有限公司”,好像是赶集网的IP。到网上一查,很多人说这就是Google的爬虫!!狂汗了一把,Google的爬虫为什么不标识为Googlebot呢?而且,作为一个爬虫程序,为什么会在这么段的时间里发送了大量的请求呢?这种高强度的爬取页面,肯定会给网站带来一定的压力。就在昨天,我看到了Googlebot的身影,明确标识为Googlebot的一个爬虫。我相信,这就是Google的爬虫。这里我有一个猜想,是不是对于刚上线的新网站,Google会用一个二三流的爬虫过来,能爬几个网页是几个网页。等你网站存在一段时间了,再用他们正式的爬虫过来。我估计,这也是Google索引新网站不如百度的原因吧。不知道,Google为什么会对这样的新网站区别对待。至于其他几个搜索引擎,像雅虎,搜狗,有道,Live search什么的,索引的频率也不是很高。感觉还是百度对新站,至少是新的中文站点敏捷一些。当然,这只是根据我的经验得出的结论,不知道其他站长是否有类似的经历,不妨大家一起来分享一下。不妨大家探讨一下如何能让Google快速索引你的新网站?
其他文章导读:
1. 史上最强的美名腾智能起名成功发布
2. 美名腾界面升级了
3. 探密诡异的HTTP Referer总是为空的原因
4. 为你的网站定制一套统一的异常处理机制
5. 由ViewStateException: The client disconnected想到的
相关文章推荐
- google,msn,百度,一搜------多么乐互联网索引量统计-----2004-04-19
- Google,Yahoo,Bing集体删除地球村索引,百度仍然保留
- [转]在这新站如何在一天内被Google和百度收录
- 新站如何在一天内被Google和百度收录(经典)
- 本土化,Google真的不如百度?
- 新站如何快速提升百度索引量
- google比百度搜索能力强
- 新站网站怎么做才能让百度秒收
- 浅析新站短时间获取百度收录和关键字排名以及权重方法
- 再谈百度和Google的问题
- 百度和Google的URL编码方式探索
- ZAC与百度Lee、Google朱健飞对谈记录
- Google Fans PK 百度粉丝
- 百度(Baidu) 与谷歌(Google) 有什么不同?
- 主要搜索引擎(Google和百度、雅虎)的站内搜索代码
- Google、百度、谷歌的最本质区别
- google 百度 双主页
- 浅一谈百度索引量和收录量的区别
- XML-RPC协议实现百度和Google的Ping功能