python爬虫之Scrapy 使用代理配置
2016-08-22 11:23
615 查看
转载自:http://www.python_tab.com/html/2014/pythonweb_0326/724.html
在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理)
下面来说一下Scrapy如何配置代理,进行抓取
1.在Scrapy工程下新建“middlewares.py”
2.在项目配置文件里(./pythontab/settings.py)添加
完毕。
在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理)
下面来说一下Scrapy如何配置代理,进行抓取
1.在Scrapy工程下新建“middlewares.py”
# Importing base64 library because we'll need it ONLY in case if the proxy we are going to use requires authentication import base64 # Start your middleware class class ProxyMiddleware(object): # overwrite process request def process_request(self, request, spider): # Set the location of the proxy request.meta['proxy'] = "http://YOUR_PROXY_IP:PORT" # Use the following lines if your proxy requires authentication proxy_user_pass = "USERNAME:PASSWORD" # setup basic authentication for the proxy encoded_user_pass = base64.encodestring(proxy_user_pass) request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
2.在项目配置文件里(./pythontab/settings.py)添加
DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, 'pythontab.middlewares.ProxyMiddleware': 100, }
完毕。
相关文章推荐
- python爬虫之Scrapy 使用代理配置
- python爬虫之Scrapy 使用代理配置
- python爬虫之Scrapy 使用代理配置
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- linux下在服务器上配置scrapy框架的python爬虫,使用mysql数据库保存
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- 零基础写python爬虫之爬虫框架Scrapy安装配置
- Python爬虫进阶一之爬虫框架Scrapy安装配置
- 使用PYTHON3写了一个简单爬虫, 通过公司代理爬取ppt素材
- Python 爬虫 正则抽取网页数据和Scrapy简单使用
- Python爬虫教程——进阶一之爬虫框架Scrapy安装配置
- Python爬虫进阶一之爬虫框架Scrapy安装配置
- Python:爬虫使用代理防封IP:HTTP Error 403: Forbidden
- Python爬虫框架Scrapy安装使用步骤
- 使用python,scrapy写(定制)爬虫的经验,资料,杂。
- 实战:使用Docker配置ubuntu下的scrapy爬虫环境
- python语言scrapy爬虫的使用
- Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- 使用Python的Scrapy框架编写web爬虫的简单示例