爬虫Scrapy框架的安装和使用(Python)
2018-03-23 15:03
716 查看
Scrapy框架:
好处: 省事,快速搭建一个系统,快速抓取数据。
坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。
1. 安装Scrapy
安装Scrapy in Ubuntu:sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev
sudo pip install scrapy
2. 制作一个Scrapy需要的四个步骤:
1). 新建爬虫项目
scrapy startproject projectName项目目录结构:
tarena@tedu:~/Spider/tencentSpider$tree.: ├──scrapy.cfg └──tencentSpider ├── __init__.py ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders └── __init__.py
明确目标:明确你想要抓取的目标,生成一个具体的爬虫:
scrapy genspider tencent
scrapy genspider tencent hr.tencent.com
下面需要具体取修改代码逻辑,按照我们的需求去实现自己的爬虫逻辑: 修改setttings.py 设置 pipelines.py保存的逻辑 tecent.py, 抓取页面信息和继续跳转的逻辑 items.py 保存item的映射
3) 制作爬虫 (spiders/spiderName.py):制作爬虫开始爬取网页;
4) 存储内容 (pipelines.py):设计管道存储爬取内容;
5) 在Scrapy下启动爬虫:
scrapy crawl tencent3. setting.py配置
BOT_NAME = 'tencentSpider' # 爬虫名字# 可以指定多个存储逻辑的管道
ITEM_PIPELINES = {
"MySQLPipelines": 300, # 300表示优先级居中
"FilePipelines": 200, # 300表示优先级居中
}
相关文章推荐
- Python爬虫框架Scrapy安装使用步骤
- Python之Scrapy爬虫框架安装及简单使用
- Python爬虫框架Scrapy安装使用步骤
- Python之Scrapy爬虫框架安装及简单使用
- Python爬虫框架Scrapy安装使用步骤
- Python之Scrapy爬虫框架安装及简单使用详解
- Python之Scrapy爬虫框架安装及使用详解
- 使用Python的Scrapy框架编写web爬虫的简单示例
- Python爬虫进阶一之爬虫框架Scrapy安装配置
- 使用python scrapy爬虫框架 爬取科学网自然科学基金数据
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- Python爬虫教程——进阶一之爬虫框架Scrapy安装配置
- Python爬虫教程——进阶一之爬虫框架Scrapy安装配置
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- Python开源框架Scrapy安装及使用
- Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
- 零基础写python爬虫之爬虫框架Scrapy安装配置
- python爬虫 - scrapy的安装和使用
- Python网络爬虫3 ---- ubuntu下安装爬虫框架scrapy