您的位置：首页 > 编程语言 > Python开发

爬虫Scrapy框架的安装和使用（Python）

2018-03-23 15:03 716 查看

Scrapy框架：

好处：省事，快速搭建一个系统，快速抓取数据。
坏处：细节不清楚，框架的限制需要考虑，学习成本高，可能隐藏了很多未知的问题。

1. 安装Scrapy

安装Scrapy in Ubuntu：
sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev
sudo pip install scrapy

2. 制作一个Scrapy需要的四个步骤：

1）. 新建爬虫项目

scrapy startproject projectName
项目目录结构：
tarena@tedu:~/Spider/tencentSpider$tree.： ├──scrapy.cfg └──tencentSpider ├── __init__.py ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders └── __init__.py
明确目标：明确你想要抓取的目标，生成一个具体的爬虫：
scrapy genspider tencent
scrapy genspider tencent hr.tencent.com
下面需要具体取修改代码逻辑，按照我们的需求去实现自己的爬虫逻辑： 修改setttings.py 设置 pipelines.py保存的逻辑 tecent.py, 抓取页面信息和继续跳转的逻辑 items.py 保存item的映射

3) 制作爬虫 (spiders/spiderName.py)：制作爬虫开始爬取网页;
4) 存储内容 (pipelines.py)：设计管道存储爬取内容;
5) 在Scrapy下启动爬虫：

scrapy crawl tencent

3. setting.py配置

BOT_NAME = 'tencentSpider' # 爬虫名字
# 可以指定多个存储逻辑的管道
ITEM_PIPELINES = {
"MySQLPipelines": 300, # 300表示优先级居中
"FilePipelines": 200, # 300表示优先级居中
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航