python 爬虫 robots协议
2020-06-29 04:46
204 查看
Requests库:小规模,数据量小,爬取速度不敏感。
Scrapy:中规模,数据量较大,爬取速度敏感
定制开发(Google/Firefox):大规模,搜索引擎,爬取全网,爬取速度关键
Robots:Robots Exclusion Standard 网络爬虫排除标准,网站告知爬虫哪些页面可以爬取 形式:在网站根目录下的robots.txt
eg:http://www.jd.com/robots.txt
http://www.moe.edu.cn/robots.txt #无robots协议
[code]User-agent: * #对于任何网络爬虫来源 Disallow: /?* #不允许访问以?开头 Disallow: /pop/*.html Disallow: /pinpai/*.html?* #符合该通配符均不允许访问 User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider #恶意爬虫,拒绝访问京东所有信息 Disallow: /#所有目录
相关文章推荐
- Python爬虫的道德规范---robots协议
- python爬虫2---Robots协议
- python爬虫学习笔记1:requests库及robots协议
- Python 爬虫流程及robots协议介绍
- python爬虫由浅入深2--反爬虫Robots协议
- 【python爬虫学习笔记】03 requests库爬取的简单实例以及robots协议
- python爬虫robots协议简单了解
- Python学习之网络爬虫(一)Requests库与Robots协议
- python爬虫零基础入门——反爬的简单说明
- python爬虫:案例三:去哪儿酒店价格信息
- python3.x爬虫实战:阿里巴巴网站定向信息抓取
- python2-爬虫-POST请求的模拟案例_recv
- Python3.4 用 BeautifulSoup 爬虫 Navigable String类型转换
- 入坑爬虫(二)编写第一个python小爬虫
- python简单网络爬虫程序
- 数据科学工程师面试宝典系列之一--Python爬虫实战
- python3爬虫之入门基础和正则表达式
- 爬虫 | Python学习之Scrapy-Redis实战京东图书
- python编写网络爬虫程序
- python_爬虫http协议