您的位置:首页 > 编程语言 > Python开发

用Python抓取全站中的404错误

2015-08-06 17:10 471 查看
链接是SEO的一个重要因素。为了在搜索引擎中获取更好的排名,一定要定期检查下网站中的链接是否依然有效。特别是由于一些巨大的改动可能会导致坏链接的出现。要检测这些站内的链接问题,可以通过一些在线的工具。比如Google Analytics,Bing Webmaster Tools,brokenlinkcheck.com等。尽管有现成的工具,我们也可以自己来编写一个。使用Python会非常容易。

参考原文:How to Check Broken Links with 404 Error in Python

作者:Xiao Ling

翻译:yushulx


如何检查网站404错误

为了让网站更好的被搜索引擎抓取,一般的网站都会有一个sitemap.xml。所以基本步骤是:

读取sitemap.xml,获取所有的站内链接。

从每个链接中再读取所有的链接,可能包含inbound link或者outbound link。

检查所有链接的状态。


软件安装

使用BeautifulSoup库来分析网页元素会非常方便:

?


如何使用Python抓取网页

因为程序运行的时间可能会很长,要随时打断的话,需要注入键盘事件:



使用BeautifulSoup来分析sitemap.xml:



分析HTML元素获取所有链接:



检查link的response返回值:




源码

https://github.com/yushulx/crawl-404
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Python SEO