Redisspider的爬虫和scrapy.spider的区别
2019-01-26 08:26
591 查看
Redisspider的爬虫和scrapy.spider的区别
Redisspider 分布式爬虫,请求的持久化,去重的持久化
-
区别
父类不一样,RedisSpider - start_urls没有了,多了redis_key ,往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
-
scrapy genspider 爬虫名 爬取范围
启动爬虫
-
让爬虫就绪:scrapy crawl 爬虫名
-
redis中存入url地址:lpush redis_key url
RedisCrawlSpider的爬虫和crwalspdier的区别
RedisCrawlSpider 分布式爬虫,请求的持久化,去重的持久化
-
区别
父类RedisCrawlSpider - start_urls没有了,多了redis_key ,往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
-
scrapy genspider -t crawl 爬虫名 爬取范围
启动爬虫
-
让爬虫就绪:scrapy crawl 爬虫名
-
redis中存入url地址:lpush redis_key url
crontab使用的方法
- 分钟 小时 日 月 星期 命令
- 30 9 8 * * ls #每个月的8号的9:30执行ls命令
在爬虫中使用crontab
-
-
爬虫启动命令写入脚本文件
cd `dirname $0` scrapy crawl 爬虫名 >> run.log 2>&1
-
-
给脚本添加可执行权限
chmod +x run.sh
-
把脚本文件添加到crontab的配置中
30 6 * * * /home/python/myspider/run.sh
相关文章推荐
- [置顶]scrapy 知乎关键字爬虫spider代码
- scrapy_redis分布式爬虫 从redis写到mysql数据库中
- 【转】Python爬虫(7)_scrapy-redis
- 爬虫框架scrapy 1个piplines 对应多个spider,并且分别处理
- (5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
- scrapy爬虫之Spider
- Scrapy-Redis redis_key链接跑完后,自动关闭爬虫
- 【Scrapy】学习记录2_爬虫Spider
- Python爬虫框架Scrapy 学习笔记 8----Spider
- Scrapy源码分析-所有爬虫的基类-Spider(二)
- python爬虫入门(七)Scrapy框架之Spider类
- scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
- Scrapy基于scrapy_redis实现分布式爬虫部署
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- scrapy-redis实现爬虫分布式爬取分析与实现
- scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?
- python爬虫入门(八)Scrapy框架之CrawlSpider类
- redis-spider的使用:当当网图书爬虫案例
- 分布式爬虫scrapy-redis
- 基于Python,scrapy,redis的分布式爬虫实现框架