您的位置：首页 > 数据库 > Redis

python中基于scrapy框架的分布部署redis，scrapyd以及gerapy

2018-09-27 22:31 453 查看

分布式的步奏
1：（1）下载redis包，记住要用管理员身份运行：也可以到安装包的安装路径去按住shift建再加上鼠标右键在命令窗口打开
   （2）redis-server redis.windows.conf(这样是开服务的：还要在redis.windows.conf文件中的搜索bind，将后面的ip改成当前服务器ip     bind 192.168.216.54)
   （3）redis-cli -h ip 这是链接服务的
   redis开服务了之后，把代码发给连接服务的机器【代码中spider中的继承的scrapy.spider改成RedisSpider，注释start_urls，redis_key=‘这个值可以自己定’   setting中的

redis的启动命令，lpush +redis_key中自己设置的名字 +url请求的网址

# 配置使用的scrapy_redis调度器
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
# 配置使用的去重类
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# redis远程链接地址
# REDIS_URLS = 'redis://root:192.168.216.54'主机的ip
REDIS_HOST='192.168.216.54'自己的ip
REDIS_PORT='6379'
】之后链接服务的机器运行代码，在连接（3）这个是地方或者在lpush + start_keys后面定义的值+请求的网址
2：下载scrapyd包之后找到安装目录在命令行打开输入scrapyd就打开了scrapyd服务了（输入172.0.0.1:6800 可以查看如果还是用scrapyd操作的化就可以看上面的文件，接下来用的是gerapy这个包就是将scrapyd界面化了）
3：1.下载gerapy pip install gerapy
还要下载scrapyd包，在虚拟环境下载的打开命令行工具进入虚拟环境进入scrapyd包的目录，输入scrapd开启scrapyd

2.创建文件夹，存放部署的项目(随便取创建的名字，projects中直接把项目拉进去就是项目管理中的数据)
3.进入文件夹，gerapy init 初始化
4.进入gerapy文件夹，gerapy migrate创建数据表
5.gerapy runserver 启动项目
6.浏览器输入http://127.0.0.1:8000访问

点击项目管理然后

在scrapyd安装目录中的default_scrapyd 改为（
bind_address = 0.0.0.0）意可以连接远程服务器
两个点击主机管理创建名字加IP地址端口6800这样连接
上其他的了，然后再项目部署中打包部署你就是主机（部署文件就是在之前创建的文件里面的projects 写完的爬虫直接托里面来）
主机从机连接上自己的之后点击调度就能看到别人部署给你的项目了

gerapy就是把scrapyd界面化运行gerapy要把scrapy打开（找到目录然后）

接下来就是给大家说一下这三个包的下载和安装，以及一些安装出现的错误，还有每个包的作用。

夜黑风高，闲来无事，今天来给大家说一说python的scrapy框架的爬虫分步。主要用到的就是三个包吧

一：redis 这个包很简单，下一步安装就好，这个是网址下载安装就好了（ https://github.com/MicrosoftArchive/redis/releases ）具体下载多少位数的根据自己的需求，我下载的是安装好之的后找到安装的路径，按住shift鼠标右键在命令行窗口打开：【这样做的目的就是以管理员的身份运行，不然的话会有一些权限不够】打开命令行之后输入redis-server空格redis.windows-conf 如果出现如图的状态表示redis安装成功，出现这个图就是服务开启了

可能出现的错误以及解决办法我总结了如下：

出现错误：# Creating Server TCP listening socket 127.0.0.1:6379: bind: No error

解决方法：在命令行中运行

redis-cli

127.0.0.1:6379>shutdown

not connected>exit

然后重新运行redis-server redis.windows.conf，启动成功！

二：scrapyd这个包就是开启分布式爬虫的的包，可以打开命令行工具pip install scrapy（如果你要是自己建的虚拟环境，要先进虚拟环境之后在下载）等待安装完成输入scrapyd，如图之后打开如图第一个矩形的网址就可以查看了查看结果如图这个时候就说明已经安装成功了scrapyd。scrapyd可以自己做爬虫的分布式，但是代码量比较复杂，所以就引用了gerapy这个包，这个包可以吧scrapyd分布式界面化，操作也比较简单（单独用scrapyd做的我会在文章最后给大家介绍）

三：gerapy这个包

1.下载gerapy pip install gerapy
还要下载scrapyd包，在虚拟环境下载的打开命令行工具进入虚拟环境进入scrapyd包的目录，输入scrapd开启scrapyd

点击项目管理然后

gerapy就是把scrapyd界面化运行gerapy要把scrapy打开

接下来就是scrapyd自己做分布式的一些步奏，进阶上面的步奏

如果连接成功先关闭服务，自己在非C盘下新建一个文件夹，名称自定义如:scrapydTest

然后进入该文件夹，shift+右键打开命令行工具，输入scrapyd执行，执行完成后会新建一个dbs空文件夹，用来存放爬虫项目的数据文件

安装scrapyd-client模块。scrapyd-client模块是专门打包scrapy爬虫项目到scrapyd服务中的，进入虚拟环境，执行命令pip install scrapy-client==1.1.0，安装完成后，在虚拟环境的scripts中会出现scrapyd-deploy无后缀文件，这个scrapyd-deploy无后缀文件是启动文件，在Linux系统下可以远行，在windows下是不能运行的，所以我们需要编辑一下使其在windows可以运行