您的位置：首页 > 其它

Flex调用Hessian服务时错误#1014与#1065的处理

2012-07-23 17:41 204 查看

网站如何让百度收录增多?

先明确一些基本点，一个网页被收录与否，有两个因素

是否被爬虫爬过

页面质量是否过关

很多人说，“我看看site的数据不就行了！”，事实上没有这个指标，很多工作就无从下手。从数据中找出问题，利用数据指导解决方案，分析数据验证工作成果。任何数据分析由，目标->分析->评估->决策，四个环节组成。

目标：我们想看一下网站的收录情况如何，在搜索引擎优化方面是否还有提高的机会。

分析：收录情况什么算好什么算坏，是不是用一些指标来衡量？网站的收录情况是不是过于笼统，是不是应该细分下各个页面的收录情况？

评估：于是我们需要下面一些数据

网站的页面层级关系

各个层级页面带来的SEO流量

各个层级页面的收录情况如何

SEO流量的占比可以从Google Analytics中过滤出来。

页面数量可以从数据库获得，或者通过火车头or自制小脚本抓取统计。

收录率可以将获取的页面通过工具进行搜索，火车头也可以。

问题立马凸显！

1+2级目录页带来了大量的流量，收录率不是很好，优化收录的流量提升突破口在在此！

产品页面数量很多，收录也不是很理想，但是带来的流量有限，除了收录问题，还有页面内容的问题，本文中先不管它了。

决策：我们的结论是立刻展开行动对目录页面进行收录的优化。

看到这边，似乎刚开始的目标：“通过优化收录提升流量”

演变成了新的目标：“如何提高目录页面的收录量”

这边能不能再次通过数据分析的方法进行SEO呢？

我们再来重新走一遍目标->分析->评估->决策的过程

目标：提高目录页面的收录量

分析：通过本文开始的有关收录的两个因素，我们需要检查一下，网页是否被爬虫爬行过，网页的质量是不是过关。

1. 关于爬虫的情况，我们需要分析日志，才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。

2. 由于页面质量似乎是一个很难衡量的值，于是我们可以用相同模板下的：

已被爬行的页面数量/已被爬行并且被收录页面数量

来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了，那至少说明这套页面的内容搜索引擎还算认可。（实际情况远比这个复杂，而且收录后也有可能因为质量问题被删除，但总比什么参照都没有要好，对吧！）

评估：（敏感信息用编号代替，均为真实数据）

先看一下爬虫日志的情况，通过Shell脚本，我们可以分析出。

目录总计被爬行的次数为13000次左右

不重复的目录爬行次数为5500次左右

频道A下的目录几乎被100%抓取过至少1次，频道B的目录抓取也不错，有70%被至少抓过一次。

其余频道下的目录被抓取的覆盖率不到30%

不要觉得这个结果很神奇，其实很多网站都会面对这样的糟糕问题，只要你把数据不断的细分，细分，再细分，总会观察出一些端倪的。

关于日志分析，不要迷信任何的日志分析软件，那都是给懒人用的，自制脚本+Excel才是王道，可以拆分显示出任何你想要的数据，当然，甚至可以连Excel都不要。

然后，我们统计了一下被抓得最频繁的频道A和频道B，目录页的收录率

频道A和B是很让人放心的，说明页面质量没问题，但是余下的收录情况就让人比较担心了。

决策：通过上面的数据评估，我们已经得到了如下结论。

页面质量并不是影响收录的原因。

频道A，B的抓取量异常的高，通过调查了解，原来是首页上的目录页，显示的全是频道A下的目录页，首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源，权重也非常高。

除了A, B频道，其他频道的抓取情况不容乐观，抓取入口太少，太深，进而影响了收录情况。

很明显，现在频道A从站内的角度来说太强大了，必须进行一些“劫富济贫”的运动来降低频道A的抓取量，转移到其他频道中去。同时，需要给爬虫提供更多的入口抓取频道页。

现在问题变得清晰起来，我们开始把工作分成两部分：1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。

提供入口工作：

1.把目录页的URL制作成sitemap。提交给搜索引擎，并且将其设置为比较高的抓取权重。

2.完善面包屑导航，将面包屑导航划分得更加细致，以提供更多入口

3.在其他产品中推荐目录页

资源平分工作：（一些概念：任意页面都有可能成为爬虫入口，百度爬虫抓取深度有限，页面相对入口越浅，被抓取的概率越高。）

1.原先首页指向的都是频道A的目录页+产品页，将其全部nofollow，确保从首页进入的爬虫，全部抓取到频道页，通过频道页再进入目录页（其实这个不算太重要）

2.原先频道页指向自身的产品页，将其全部nofollow（确保从频道页入口的爬虫，最大程度的抓取目录页）

3.从目录页返回到首页的链接，将其全部nofollow。

4.减少一些页面上无关链接。（什么情况下这么做都是非常有效的。）

现在可以开始动手了。。

成果

这么做到底有什么效果呢，我们来看看修改后1个月后的数据。

目录页的收录率提高了100%！

产品页的收录率也有一定程度的提高，这是归功于目录页对于产品的良好展现。

目录页的SEO表现：

SEO流量占比上升了15%

增长10%的到访关键词数量（新页面的收录）

SEO流量增长了50%以上。（包含一些季节因素）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航