Python之定向爬虫Scrapy
2016-07-23 12:55
302 查看
1.Scrapy介绍
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。
[b]2.Scrapy安装[/b]
1)安装libxml2:
输入命令:pip install lxml
2) 安装Zope.Interface
输入命令:pip install zope.interface
3)安装Twisted
输入命令:pip install Twisted
4) 安装pyOpenSSL
输入命令:pip install pyOpenSSL
5)安装pywin32
输入命令:pip install win32py
6)安装Scrapy
输入命令:pip install scrapy
3.创建项目
输入命令:scrapy startproject tutorial
这些文件主要是:
scrapy.cfg: 项目配置文件
tutorial/: 项目python模块, 呆会代码将从这里导入
tutorial/items.py: 项目items文件
tutorial/pipelines.py: 项目管道文件
tutorial/settings.py: 项目配置文件
tutorial/spiders: 放置spider的目录
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。
[b]2.Scrapy安装[/b]
1)安装libxml2:
输入命令:pip install lxml
2) 安装Zope.Interface
输入命令:pip install zope.interface
3)安装Twisted
输入命令:pip install Twisted
4) 安装pyOpenSSL
输入命令:pip install pyOpenSSL
5)安装pywin32
输入命令:pip install win32py
6)安装Scrapy
输入命令:pip install scrapy
3.创建项目
输入命令:scrapy startproject tutorial
这些文件主要是:
scrapy.cfg: 项目配置文件
tutorial/: 项目python模块, 呆会代码将从这里导入
tutorial/items.py: 项目items文件
tutorial/pipelines.py: 项目管道文件
tutorial/settings.py: 项目配置文件
tutorial/spiders: 放置spider的目录
相关文章推荐
- python数据持久存储:pickle模块的基本使用
- python opencv(7)图像平铺
- python日志简单用法
- Stage4--Python面向对象
- Stage4--Python面向对象
- Stage3--Python控制流程及函数
- Stage3--Python控制流程及函数
- Python 相关
- Stage2--Python的数据类型
- Stage2--Python的数据类型
- 机器学习实战学习笔记2——决策树算法
- Python 基础知识
- 以写代学:python 数据类型之数字,可用函数
- python: IDLE增加清屏的扩展ClearWindow
- python核心编程学习笔记-2016-07-23-02-切片索引
- Python Twisted介绍
- Python爬虫--timeout设置--防止访问时间过长造成假死
- 在eclipse中安装python的插件
- Python_进程、线程及协程
- Hello Python