基于scrapy和redis的分布式爬虫环境搭建
2016-04-29 16:30
751 查看
1,安装scrapy,redis,scrapy-redis
#安装scrapy sudo pip install scrapy #安装redis cd /usr/local/src wget http://download.redis.io/releases/redis-3.0.7.tar.gz tar zxvf redis-3.0.7.tar.gz cd redis-3.0.7.tar.gz make mkdir /usr/local/redis/{conf,run,db} -pv cd /usr/local/src/redis-3.0.7/ cp redis.conf /usr/local/redis/conf cd src cp redis-benchmark redis-check-aof redis-check-dump redis-cli redis-server mkreleasehdr.sh /usr/local/redis/ #配置redis后台运行 vim /usr/local/redis/conf/redis.conf daemonize yes #启动redis cd /usr/local/redis/ ./redis-server conf/redis.conf #添加开机启动项 echo "/usr/local/redis/redis-server /usr/local/redis/conf/redis.conf" >> /etc/rc.local #安装scrapy-redis pip install scrapy-redis #设置PATHONPATH cd /lib64/python2.7/site-packages cp -r /home/hanchaoqi/scrapy-redis/scrapy_redis/ .
2,运行example-project
#修改master的redis配置文件redis.conf,注释bind,或者添加slave的IP #bind 127.0.0.1 或者 bind 0.0.0.0 #重启redis redis-server restart #slave中测试是否可以连接master的redis,如果出现no route to host,但是可以ping通,尝试设置防火墙打开该端口 redis-cli -h 192.168.1.111 -p 6379 #部署scrapy-redis #slave端,setting.py中的最后一行增加 REDIS_URL = 'redis://192.168.1.112:6379' #master端,setting.py中增加 REDIS_HOST = 'localhost' REDIS_PORT = 6379 #不分顺序,在master和slave上启动爬虫,可以在两台机器上分别运行redis-cli来检查本地是否有数据以确定两个爬虫是否共享同一个redis队列
相关文章推荐
- Redis --> Ubuntu安装redis
- redis 基本命令学习二(sets、sorted sets)
- Redis安装部署
- Redis --> Redis架构设计
- redis在.net架构中的应用(1)--利用servicestack连接redis
- Redis+Keepalived高可用方案详细分析
- 利用redis + lua解决抢红包高并发的问题
- Redis安装及使用
- redis 订阅者发布者
- redis优缺点总结
- Redis关键点(自动bgrewriteaof)
- redis总结
- Java中使用Jedis操作Redis
- redis 与DB同步方案
- Redis --> 为redis分配新的端口
- Redis常用命令速查 <第二篇>
- Redis介绍及常用命令
- redis 基本命令学习一(strings、hashes、lists)
- redis安装过程
- Redis碎碎念