您的位置:首页 > 数据库 > Redis

Redisspider的爬虫和scrapy.spider的区别

2019-01-26 08:26 591 查看

Redisspider的爬虫和scrapy.spider的区别

Redisspider 分布式爬虫,请求的持久化,去重的持久化

  • 区别

    父类不一样,RedisSpider
  • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
  • settings 中多了几行配置
  • 创建爬虫

      scrapy genspider 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

        让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

    RedisCrawlSpider的爬虫和crwalspdier的区别

    RedisCrawlSpider 分布式爬虫,请求的持久化,去重的持久化

    • 区别

      父类RedisCrawlSpider
    • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
    • settings 中多了几行配置
  • 创建爬虫

      scrapy genspider -t crawl 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

        让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

    crontab使用的方法

    • 分钟 小时 日 月 星期 命令
    • 30 9 8 * * ls #每个月的8号的9:30执行ls命令

    在爬虫中使用crontab

      1. 爬虫启动命令写入脚本文件
    cd `dirname $0`
    scrapy crawl 爬虫名 >> run.log 2>&1
      1. 给脚本添加可执行权限
    • chmod +x run.sh
    1. 把脚本文件添加到crontab的配置中
    • 30 6 * * * /home/python/myspider/run.sh
  • 内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
    标签: