您的位置:首页 > 编程语言 > Python开发

python爬虫由浅入深2--反爬虫Robots协议

2017-09-26 15:07 155 查看
Robots协议:网络爬虫排除标准

在我们想要爬取某个站点时,可以通过查看此站点的相关Robots协议来查看哪些可以爬,哪些不能爬,当然,仅仅是网站维护者制定的规则而已,并不是说,他们禁的数据我们就爬不到

Robots协议的形式:在网站的Robots.txt中,例如https://www.baidu.com/robots.txt

进入后将会得到如下内容:

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

如果一个站点没有robots,txt文件,则说明其上所有数据皆可爬取
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: