您的位置：首页 > 编程语言 > Python开发

用Python抓取全站中的404错误

2015-08-06 17:10 471 查看

链接是SEO的一个重要因素。为了在搜索引擎中获取更好的排名，一定要定期检查下网站中的链接是否依然有效。特别是由于一些巨大的改动可能会导致坏链接的出现。要检测这些站内的链接问题，可以通过一些在线的工具。比如Google Analytics，Bing Webmaster Tools，brokenlinkcheck.com等。尽管有现成的工具，我们也可以自己来编写一个。使用Python会非常容易。

参考原文：How to Check Broken Links with 404 Error in Python

作者：Xiao Ling

翻译：yushulx

如何检查网站404错误

为了让网站更好的被搜索引擎抓取，一般的网站都会有一个sitemap.xml。所以基本步骤是：

读取sitemap.xml，获取所有的站内链接。

从每个链接中再读取所有的链接，可能包含inbound link或者outbound link。

检查所有链接的状态。

软件安装

使用BeautifulSoup库来分析网页元素会非常方便：

?

如何使用Python抓取网页

因为程序运行的时间可能会很长，要随时打断的话，需要注入键盘事件：

使用BeautifulSoup来分析sitemap.xml：

分析HTML元素获取所有链接：

检查link的response返回值：

源码

https://github.com/yushulx/crawl-404

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python SEO

相关文章推荐

新的分享

章节导航