您的位置：首页 > 编程语言 > Python开发

python爬虫（一）-基础篇

2017-01-10 10:32 225 查看

robots.txt 文件 - 网站对爬虫限制的声明（http://www.robotstxt.org/）

sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)

503 service unavailable 服务器过载错误（临时性） - 可以尝试重新下载

404 Not Found 网页不存在，即使重复下载也不行

Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时，5xxx错误发生在服务器端存在问题时

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

爬虫-python基础篇
运维学python之爬虫基础篇（四）Cookie
Python 爬虫知识记——基础篇
运维学python之爬虫基础篇（五）正则表达式
运维学python之爬虫基础篇（一）开篇
零基础掌握百度地图兴趣点获取POI爬虫（python语言爬取）（基础篇）
运维学python之爬虫基础篇实战（六）爬取百度贴吧
Python写的简易采集爬虫(蜘蛛)
Python2.5/2.6实用教程入门基础篇
Python的爬虫程序
python搜索引擎和爬虫框架介绍
Python学习笔记之网络爬虫
【用Python写爬虫】获取html的方法【一】：使用urllib
曲谱搜索进展及 python的轻量级爬虫框架
Python爬虫
07-爬虫的多线程调度 | 01.数据抓取 | Python
python网络爬虫
【用Python写爬虫】获取html的方法【一】：使用urllib
【用Python写爬虫】获取html的方法【三】：使用cPAMIE
Getting Started Spidering a Site使用Chilkat（python）练习的一个爬虫（from :http://www.example-code.com）

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航