python爬虫由浅入深2--反爬虫Robots协议
2017-09-26 15:07
155 查看
Robots协议:网络爬虫排除标准
在我们想要爬取某个站点时,可以通过查看此站点的相关Robots协议来查看哪些可以爬,哪些不能爬,当然,仅仅是网站维护者制定的规则而已,并不是说,他们禁的数据我们就爬不到
Robots协议的形式:在网站的Robots.txt中,例如https://www.baidu.com/robots.txt
进入后将会得到如下内容:
如果一个站点没有robots,txt文件,则说明其上所有数据皆可爬取
在我们想要爬取某个站点时,可以通过查看此站点的相关Robots协议来查看哪些可以爬,哪些不能爬,当然,仅仅是网站维护者制定的规则而已,并不是说,他们禁的数据我们就爬不到
Robots协议的形式:在网站的Robots.txt中,例如https://www.baidu.com/robots.txt
进入后将会得到如下内容:
User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/
如果一个站点没有robots,txt文件,则说明其上所有数据皆可爬取
相关文章推荐
- python爬虫由浅入深10---pyquery库的基础与使用
- python爬虫由浅入深5--的html格式输出 prettify()
- python爬虫由浅入深7--基于中国大学排名的定向爬虫
- python爬虫由浅入深8---正则表达式及Re库的基础与使用
- python爬虫由浅入深6--基于bs4库的HTML内容的查找方法
- python爬虫由浅入深13--scrapy基础实战·爬取哈理工教务在线公告
- Python3.5 爬虫之由浅入深(一、get单一网页)
- Python3.5 爬虫之由浅入深(三、html转excel)
- python爬虫由浅入深11---selenium的基础与使用
- python爬虫由浅入深15---利用Redis+Flask来维护代理池和Cookie池
- python爬虫由浅入深1-从网页中爬取文件并保存至本地
- Python爬虫的道德规范---robots协议
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- python爬虫由浅入深9---定向爬取股票数据信息并保存至本地文件
- python爬虫由浅入深8---基于正则表达式查询的淘宝比价定向爬虫
- python爬虫由浅入深12---scrapy框架的基础入门
- python爬虫由浅入深14---Redis数据库的安装与配置
- Python3.5 爬虫之由浅入深(二、get多个网页)
- python爬虫由浅入深3--BeautifulSoup的使用的基本方法
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析