爬虫学习——Scrapy框架学习(二)
2019-08-09 20:16
141 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_42412973/article/details/98985267
接上一篇
三、requests库和Scrapy库的比较 相同点: 1、两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线 2、两者可用性都好,文档丰富,入门简单 3、两者都没有处理js、提交表单、应对验证码等功能(可扩展) 不同点: requests Scrapy 页面级爬虫 网站级爬虫(批量) 功能库 框架 并发性考虑不足,性能较差 并发性好,性能较高 重点在于页面下载 重点在于爬虫结构 定制灵活 一般定制灵活,深度定制困难 上手十分简单 入门稍难 选用哪个技术路线: 1、非常小的需求,requests 2、不太小的需求(持续不间断或周期性,或对爬取的信息要积累的),scrapy 3、定制程度很高的需求(不考虑规模),自搭框架,requests>Scrapy 四、Scrapy爬虫的常用命令 Scrapy命令行 Scrapy是为持续运行设计的专业爬虫框架,提供操作的Scrapy框架 命令行下:scrapy -h
scrapy的很多操作与使用,包括建立爬虫与运行爬虫都是通过命令行来实现的 Scrapy命令行格式: scrapy <command> [options] [args] Scrapy常用的命令: 命令 | 说明 | 格式 startproject 创建一个新工程 scrapy startproject <name> [dir] genspider 创建一个爬虫 scrapy genspider [options] <name> <domain> settings 获得爬虫配置信息 scrapy settings [options] crawl 运行一个爬虫 scrapy crawl <spider> list 列出工程中所有爬虫 scrapy list shell 启动URL调试命令行 scrapy shell [url] 一个工程相当于一个Scrapy,可以有很多爬虫,一个爬虫相当于一个Spider模块 为什么采用命令行形式: 更多的是一个后台框架,命令行(不是图形界面)更容易自动化,适合脚本控制 本质上,Scrapy是给程序员用的,功能(而不是界面)更重要
相关文章推荐
- Scrapy爬虫框架学习之自定义Pipelines将文件以Json格式存储
- Scrapy爬虫框架学习之MySQL数据库的存储
- Python爬虫学习(七)----Scrapy框架实践
- Scrapy框架学习(三)----基于Scrapy框架实现的简单爬虫案例
- Python爬虫框架Scrapy 学习笔记 8----Spider
- 小猪的Python学习之旅 —— 4.Scrapy爬虫框架初体验
- 爬虫Scrapy框架之学习使用(二):DownloaderMiddleWares
- Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】 抓取天猫某网店所有宝贝详情
- Python网络爬虫框架scrapy的学习
- Scrapy框架学习(四)----CrawlSpider、LinkExtractors、Rule及爬虫示例
- Python爬虫框架scrapy 安装学习
- 爬虫Scrapy框架学习(四)-中国保险监督委员会爬取案例
- Scrapy框架的学习(5.scarpy实现翻页爬虫,以及scrapy.Request的相关参数介绍)
- scrapy爬虫框架学习----安装scrapy
- Python爬虫框架Scrapy学习一记——认识Scrapy
- Python爬虫框架Scrapy 学习笔记 7------- scrapy.Item源码剖析
- python 爬虫 学习笔记(一)Scrapy框架入门
- 爬虫框架Scrapy学习记录II--Selector学习
- 学习python 中的scrapy爬虫框架艰辛路,不推荐看,主要纪录自己学习笔记的
- 爬虫Scrapy框架学习(五)-东莞阳光热线问政平台爬取案例