您的位置:首页 > 编程语言 > Python开发

python爬虫(一)-基础篇

2017-01-10 10:32 225 查看
robots.txt 文件 - 网站对爬虫限制的声明(http://www.robotstxt.org/

sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)

503 service unavailable 服务器过载错误(临时性) - 可以尝试重新下载

404 Not Found 网页不存在, 即使重复下载也不行

Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时,5xxx错误发生在服务器端存在问题时
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫