您的位置:首页 > 数据库 > Redis

使用scrapy-redis实现分布式爬虫

2017-11-08 17:13 661 查看

一、准备工作

用来实现分布式爬虫的项目是:爬取知乎用户信息项目

注册了两个服务器:阿里云服务器和腾讯云服务器,使用的系统都是windows系统

二、scrapy-redis组件的使用

知乎用户项目下载至本地,并使用git命令新建分支以方便对项目进行更改而不影响之前的项目:

git checkout -b distributed #新建分支
git branch #切换分支


在项目settings.py中加入:

SCHEDULER = "scrapy_redis.schedler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://120.xx.xx.xx:password@120.xx.xx.xx:6379' #我用的是阿里云服务器,此处包括服务器的用户名、密码、服务器公网IP、端口号
ITEM_PIPELINES = {
'zhihuuser.pipelines.MongoPipeline': 300,
# 'scrapy_redis.pipelines.RedisPipeline': 301,
}


将更改后的项目上传至GitHub:

git add -A
git commit -m "add distributed"
git push origin distributed


三、在本机及腾讯云上进行协同爬取

在本机上可以直接使用命令运行项目:

scrapy crawl zhihu


在腾讯云服务器上需将在分支distributed上的项目克隆下来,然后再运行:

git clone http://github.com/xxx/xxx -b distributed


这样子就可以让本机及腾讯云服务器对知乎用户项目进行协同爬取,各自爬取到的数据保存在各自的MongoDB数据库–

本机MongoDB数据库:



腾讯云MongoDB数据库:



阿里云redis数据库:



四、问题

在此过程中出现各种问题:

1、服务器无法进行远程连接

2、数据库无法进行远程连接

3、redis、mongodb数据库出现的报错
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: