您的位置:首页 > 其它

常见反爬虫机制——User-Agent和代理IP设置

2018-09-29 21:34 337 查看

常见反爬机制:

1、拒绝非浏览器的访问:可以检查请求头header中的User-agent、referer、cookies:

  • User-agent用来表示请求者的信息,可以搜集User-agent并保存,爬取过程中动态更换在User-agent,伪装成浏览器的形式

  • referer可以使用浏览器分析提取referer信息

  • 需要登录才能操作的页面可以保留cookies,带着cookies信息登录

2、请求延时:在settings.py中设置DOWNLOAD_DELAY = n,n为延迟秒数,不要给别人的服务器造成压力。

3、代理的使用:

    因此可以动态设置下User-agent及代理。 

两个步骤:

  • 在middlewares.py中自定义类

  • 在settings.py中,启用该DOWNLOADER_MIDDLEWARES

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: