您的位置:首页 > 编程语言 > Python开发

爬虫Scrapy框架的安装和使用(Python)

2018-03-23 15:03 716 查看

Scrapy框架:

    好处: 省事,快速搭建一个系统,快速抓取数据。
    坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。

1.  安装Scrapy

      安装Scrapy in Ubuntu:
               sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev
               sudo pip install scrapy

2.  制作一个Scrapy需要的四个步骤:

      1).  新建爬虫项目

              scrapy  startproject  projectName
         项目目录结构:
        tarena@tedu:~/Spider/tencentSpider$tree.:            ├──scrapy.cfg             └──tencentSpider                      ├── __init__.py                      ├── items.py                      ├── middlewares.py                      ├── pipelines.py                      ├── settings.py                      └── spiders                               └── __init__.py
             明确目标:明确你想要抓取的目标,生成一个具体的爬虫:
                    scrapy  genspider tencent
                    scrapy genspider tencent hr.tencent.com
                                   下面需要具体取修改代码逻辑,按照我们的需求去实现自己的爬虫逻辑:                  修改setttings.py 设置                           pipelines.py保存的逻辑                           tecent.py,   抓取页面信息和继续跳转的逻辑                           items.py     保存item的映射

        3) 制作爬虫 (spiders/spiderName.py):制作爬虫开始爬取网页;
        4) 存储内容 (pipelines.py):设计管道存储爬取内容;       
        5) 在Scrapy下启动爬虫:

                scrapy crawl tencent

3. setting.py配置

        BOT_NAME = 'tencentSpider'   # 爬虫名字
        # 可以指定多个存储逻辑的管道
        ITEM_PIPELINES = {
                  "MySQLPipelines": 300,       # 300表示优先级居中
                  "FilePipelines": 200,            # 300表示优先级居中
        }
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: