python爬虫(一)-基础篇
2017-01-10 10:32
225 查看
robots.txt 文件 - 网站对爬虫限制的声明(http://www.robotstxt.org/)
sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)
503 service unavailable 服务器过载错误(临时性) - 可以尝试重新下载
404 Not Found 网页不存在, 即使重复下载也不行
Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时,5xxx错误发生在服务器端存在问题时
sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)
503 service unavailable 服务器过载错误(临时性) - 可以尝试重新下载
404 Not Found 网页不存在, 即使重复下载也不行
Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时,5xxx错误发生在服务器端存在问题时
相关文章推荐
- 爬虫-python基础篇
- 运维学python之爬虫基础篇(四)Cookie
- Python 爬虫知识记——基础篇
- 运维学python之爬虫基础篇(五)正则表达式
- 运维学python之爬虫基础篇(一)开篇
- 零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)
- 运维学python之爬虫基础篇实战(六)爬取百度贴吧
- Python写的简易采集爬虫(蜘蛛)
- Python2.5/2.6实用教程 入门基础篇
- Python的爬虫程序
- python搜索引擎和爬虫框架介绍
- Python学习笔记之网络爬虫
- 【用Python写爬虫】获取html的方法【一】:使用urllib
- 曲谱搜索进展 及 python的轻量级爬虫框架
- Python爬虫
- 07-爬虫的多线程调度 | 01.数据抓取 | Python
- python网络爬虫
- 【用Python写爬虫】获取html的方法【一】:使用urllib
- 【用Python写爬虫】获取html的方法【三】:使用cPAMIE
- Getting Started Spidering a Site使用Chilkat(python)练习的一个爬虫(from :http://www.example-code.com)