您的位置:首页 > 运维架构 > 网站架构

百度无法爬取Github Pages静态网站解决方案

2016-09-29 09:56 447 查看
在Github Pages上面托管了自己的静态博客,经过一段时间的运行发现自己网站的流量基本都是来自与谷歌、必应、搜狗等等搜索引擎,确没有百度的搜索引擎的流量,最后谷歌一下发现原因是:

百度爬取GitHub太频繁了,甚至引起了GitHub的服务不稳
定,最后GitHub直接把百度屏蔽了,也就是说,所有托管
到GitHub Pages上的静态博客都是无法被百度搜索到。

可以用如下的方法进行验证:

打开百度站长平台—>网页抓取—->抓取诊断。然后点击抓取。完成之后发现抓取状态是失败。这时候点击进入详情发现,返回的HTPP状态是
HTTP/1.0 403 Forbidden
(403表示链接被拒绝)。如下:

本文迁移至: http://guochenglai.com/2016/09/26/baidu-crow-github-page/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息