您的位置：首页 > 编程语言 > Python开发

python爬虫由浅入深2--反爬虫Robots协议

2017-09-26 15:07 155 查看

Robots协议：网络爬虫排除标准

在我们想要爬取某个站点时，可以通过查看此站点的相关Ｒｏｂｏｔｓ协议来查看哪些可以爬，哪些不能爬，当然，仅仅是网站维护者制定的规则而已，并不是说，他们禁的数据我们就爬不到

Robots协议的形式：在网站的Robots.txt中，例如https://www.baidu.com/robots.txt

进入后将会得到如下内容：

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

如果一个站点没有robots,txt文件，则说明其上所有数据皆可爬取

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航