您的位置:首页 > 其它

爬虫学习——Scrapy框架学习(二)

2019-08-09 20:16 141 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/weixin_42412973/article/details/98985267

接上一篇

三、requests库和Scrapy库的比较
相同点:
1、两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线
2、两者可用性都好,文档丰富,入门简单
3、两者都没有处理js、提交表单、应对验证码等功能(可扩展)
不同点:
requests                      Scrapy
页面级爬虫                    网站级爬虫(批量)
功能库                        框架
并发性考虑不足,性能较差       并发性好,性能较高
重点在于页面下载               重点在于爬虫结构
定制灵活                      一般定制灵活,深度定制困难
上手十分简单                  入门稍难

选用哪个技术路线:
1、非常小的需求,requests
2、不太小的需求(持续不间断或周期性,或对爬取的信息要积累的),scrapy
3、定制程度很高的需求(不考虑规模),自搭框架,requests>Scrapy

四、Scrapy爬虫的常用命令
Scrapy命令行
Scrapy是为持续运行设计的专业爬虫框架,提供操作的Scrapy框架
命令行下:scrapy -h

 

scrapy的很多操作与使用,包括建立爬虫与运行爬虫都是通过命令行来实现的

Scrapy命令行格式:
scrapy <command> [options] [args]

Scrapy常用的命令:
命令            |        说明           |         格式
startproject        创建一个新工程        scrapy startproject <name> [dir]
genspider           创建一个爬虫          scrapy genspider [options] <name> <domain>
settings            获得爬虫配置信息      scrapy settings [options]
crawl               运行一个爬虫          scrapy crawl <spider>
list                列出工程中所有爬虫    scrapy list
shell               启动URL调试命令行     scrapy shell [url]

一个工程相当于一个Scrapy,可以有很多爬虫,一个爬虫相当于一个Spider模块

为什么采用命令行形式:
更多的是一个后台框架,命令行(不是图形界面)更容易自动化,适合脚本控制
本质上,Scrapy是给程序员用的,功能(而不是界面)更重要
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: