【网站抓取】如何正确识别Baiduspider移动ua
2017-10-08 14:49
274 查看
如何正确识别Baiduspider移动ua
新版移动ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:
1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。
2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。
另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。
1.提问:请问怎么查移动站的收录?
官方回答:可以将移动站点在站长平台绑定,通过百度索引量来查询。
2.提问:为什么提交移动适配时提示我“URL校验不通过”?
官方回答:提交的目录名要与实际保持一致,且区分大小写。
3.提问:跳转适配成功后,能不能更改适配方法了?
详细内容
:我们的pc站移动适配到m站,近期pc站改版成html5自适应站,m域名已经删除,4月23日改版,到今天快半个月了,新发布的文章还是自动适配到m站,m站解析都删掉了,为什么还会这样呢。
官方回答:1.使用移动适配工具提交对应关系,PC和移动填同一个URL(工具可以支持)2.让spider重抓PC端站点和M端站点在成都割包皮一般要多少钱?
4.提问:跳转适配移动站点的收录为什么那么少?
官方回答:首先要说明的是,对于跳转适配移动站来说,并不是说没有被百度直接收录就不会获得流量。在百度移动搜索结果中,我们优先展示拥有适配移动页的PC页结果
(简称A页),用户点击PC页结果后会自动跳入相应的适配移动页(简称B页)。所以对于百度来说,收录了拥有B页的A页,就等同于收录了B页,B页依然可
以通过百度移动搜索获得流量。当然了,百度移动搜索对重要的B页也有单独的抓取收录机制。
5.提问:跳转适配移动站点想让百度了解适配关系,平台移动适配工具提交、代码标注(meta标注、rel标注)、自主适配是否可以都做,要注意什么?成都治疗男性早泄哪家医院专业
官方回答:可以都做,我们也鼓励都做。但特别要注意的是,几种方式的逻辑关系要保持一致,比如PC链接A,不能在工具提交时对应的移动链接是B,而代码标注时会表示要对应移动链接C,如果出现这种情况,百度会为其A匹配一个移动页面,但也许这个移动页面并不是你认可的那个。
6.提问:我有一个网站用的是百度APP搭建的手机站,已经被百度自己适配好了域名是m.xxx.com这样的,最近自己开发了wap.xxx.com
自己也写了百度适配的规则,但是过了2个月了 还是没有适配完毕 ,现在M站和WAP站都在运行,不知道怎么解决和适配?阴茎短小吃药可以帮助延长吗
官方回答:把m.xxx.com跳转到wap.xxx.com就可以了,不需要做其它的工作
7.提问:一个站点有M站和PC站,采用完全相同的TDK,是否有问题,手机站的SEO规则是否跟PC站相同?
答:TDK代表标题、摘要、关键词是吧?先理解一下。是这样的,PC端和移动端搜索结果展现标题和摘要的字数限制等都是不同的,PC端30多个中文汉字才截断,移动端不到20个就折行了,20多个就省略看不到了。所以,建议移动站使用单独的TDK,就算手机站tdk规则和pc站相同也没影响。
新版移动ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:
1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。
2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。
另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。
1.提问:请问怎么查移动站的收录?
官方回答:可以将移动站点在站长平台绑定,通过百度索引量来查询。
2.提问:为什么提交移动适配时提示我“URL校验不通过”?
官方回答:提交的目录名要与实际保持一致,且区分大小写。
3.提问:跳转适配成功后,能不能更改适配方法了?
详细内容
:我们的pc站移动适配到m站,近期pc站改版成html5自适应站,m域名已经删除,4月23日改版,到今天快半个月了,新发布的文章还是自动适配到m站,m站解析都删掉了,为什么还会这样呢。
官方回答:1.使用移动适配工具提交对应关系,PC和移动填同一个URL(工具可以支持)2.让spider重抓PC端站点和M端站点在成都割包皮一般要多少钱?
4.提问:跳转适配移动站点的收录为什么那么少?
官方回答:首先要说明的是,对于跳转适配移动站来说,并不是说没有被百度直接收录就不会获得流量。在百度移动搜索结果中,我们优先展示拥有适配移动页的PC页结果
(简称A页),用户点击PC页结果后会自动跳入相应的适配移动页(简称B页)。所以对于百度来说,收录了拥有B页的A页,就等同于收录了B页,B页依然可
以通过百度移动搜索获得流量。当然了,百度移动搜索对重要的B页也有单独的抓取收录机制。
5.提问:跳转适配移动站点想让百度了解适配关系,平台移动适配工具提交、代码标注(meta标注、rel标注)、自主适配是否可以都做,要注意什么?成都治疗男性早泄哪家医院专业
官方回答:可以都做,我们也鼓励都做。但特别要注意的是,几种方式的逻辑关系要保持一致,比如PC链接A,不能在工具提交时对应的移动链接是B,而代码标注时会表示要对应移动链接C,如果出现这种情况,百度会为其A匹配一个移动页面,但也许这个移动页面并不是你认可的那个。
6.提问:我有一个网站用的是百度APP搭建的手机站,已经被百度自己适配好了域名是m.xxx.com这样的,最近自己开发了wap.xxx.com
自己也写了百度适配的规则,但是过了2个月了 还是没有适配完毕 ,现在M站和WAP站都在运行,不知道怎么解决和适配?阴茎短小吃药可以帮助延长吗
官方回答:把m.xxx.com跳转到wap.xxx.com就可以了,不需要做其它的工作
7.提问:一个站点有M站和PC站,采用完全相同的TDK,是否有问题,手机站的SEO规则是否跟PC站相同?
答:TDK代表标题、摘要、关键词是吧?先理解一下。是这样的,PC端和移动端搜索结果展现标题和摘要的字数限制等都是不同的,PC端30多个中文汉字才截断,移动端不到20个就折行了,20多个就省略看不到了。所以,建议移动站使用单独的TDK,就算手机站tdk规则和pc站相同也没影响。
相关文章推荐
- 如何正确确定网站的浏览量、访问量
- 如何用Linux的命令正确识别cpu的个数和核数
- 如何避免蜘蛛陷阱让网站内容更容易被抓取?—金瑞帆高端建站
- 如何抓取网站页面内容
- 专家支招 如何识别“钓鱼”网站(转)
- Linux下如何正确识别cpu的个数和核数
- 如何用Python去实现抓取静态网页+抓取动态网页+模拟登陆网站
- 添美教你如何识别低质量的网站
- 【转载】如何用Linux的命令正确识别cpu的个数和核数
- 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
- 谷歌如何找到网站,并抓取,索引,然后列出您的网站
- 自动化测试 - RFT系列教程3: RFT是如何识别控件的(一) 抓取控件
- 索引擎如何识别网站本地特性
- 如何正确的做好网站分析?
- 如何正确实现PHP网站优化
- 搜索引擎是如何抓取网站内容的
- 如何正确的书写网站底部版权(分享来自织梦团队)
- 如何让浏览器主动识别网站icon图标
- 教育网中Nutch如何抓取国外网站
- 如何实现抓取网站访客手机号的功能