常见反爬虫机制——User-Agent和代理IP设置
2018-09-29 21:34
337 查看
常见反爬机制:
1、拒绝非浏览器的访问:可以检查请求头header中的User-agent、referer、cookies:
-
User-agent用来表示请求者的信息,可以搜集User-agent并保存,爬取过程中动态更换在User-agent,伪装成浏览器的形式
-
referer可以使用浏览器分析提取referer信息
-
需要登录才能操作的页面可以保留cookies,带着cookies信息登录
2、请求延时:在settings.py中设置DOWNLOAD_DELAY = n,n为延迟秒数,不要给别人的服务器造成压力。
3、代理的使用:
因此可以动态设置下User-agent及代理。
两个步骤:
-
在middlewares.py中自定义类
-
在settings.py中,启用该DOWNLOADER_MIDDLEWARES
相关文章推荐
- 爬虫知识5:常见反爬虫机制——User-Agent和代理IP设置
- java给爬虫设置User-Agent(绕过最表面的反爬虫机制)
- 常见的User-Agent及免费代理IP网站
- Python爬虫设置代理IP爬取知乎图片
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- selenium+python设置爬虫代理IP的方法
- 为爬虫设置User-Agent
- 爬虫代理ip设置
- Python爬虫技巧---设置代理IP
- scrapy,添加随机代理ip和user-agent
- Python爬虫设置代理IP的方法(爬虫技巧)
- Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢
- 关于设置爬虫随机user-agent的一点尝试
- [笔记]python爬虫学习笔记(三)——设置User Agent和代理IP
- Python爬虫设置代理IP和伪装成浏览器的方法
- python爬虫的代理IP设置
- Python之亚马逊反爬虫User-Agent和IP
- Python爬虫常用小技巧之设置代理IP
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- chencang-----为爬虫设置User-Agent