用Python抓取全站中的404错误
2015-08-06 17:10
471 查看
链接是SEO的一个重要因素。为了在搜索引擎中获取更好的排名,一定要定期检查下网站中的链接是否依然有效。特别是由于一些巨大的改动可能会导致坏链接的出现。要检测这些站内的链接问题,可以通过一些在线的工具。比如Google Analytics,Bing Webmaster Tools,brokenlinkcheck.com等。尽管有现成的工具,我们也可以自己来编写一个。使用Python会非常容易。
参考原文:How to Check Broken Links with 404 Error in Python
作者:Xiao Ling
翻译:yushulx
为了让网站更好的被搜索引擎抓取,一般的网站都会有一个sitemap.xml。所以基本步骤是:
读取sitemap.xml,获取所有的站内链接。
从每个链接中再读取所有的链接,可能包含inbound link或者outbound link。
检查所有链接的状态。
使用BeautifulSoup库来分析网页元素会非常方便:
?
因为程序运行的时间可能会很长,要随时打断的话,需要注入键盘事件:
使用BeautifulSoup来分析sitemap.xml:
分析HTML元素获取所有链接:
检查link的response返回值:
https://github.com/yushulx/crawl-404
参考原文:How to Check Broken Links with 404 Error in Python
作者:Xiao Ling
翻译:yushulx
如何检查网站404错误
为了让网站更好的被搜索引擎抓取,一般的网站都会有一个sitemap.xml。所以基本步骤是:读取sitemap.xml,获取所有的站内链接。
从每个链接中再读取所有的链接,可能包含inbound link或者outbound link。
检查所有链接的状态。
软件安装
使用BeautifulSoup库来分析网页元素会非常方便:?
如何使用Python抓取网页
因为程序运行的时间可能会很长,要随时打断的话,需要注入键盘事件:使用BeautifulSoup来分析sitemap.xml:
分析HTML元素获取所有链接:
检查link的response返回值:
源码
https://github.com/yushulx/crawl-404
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例
- Python 七步捉虫法