python爬虫scrapy命令工具学习之篇三
2017-04-10 23:21
274 查看
命令行工具(Command line tools)
全局命令startproject
settings
runspider
shell
fetch
view
version
项目命令
crawl
check
list
edit
parse
genspider
deploy
bench
1、创建爬虫工程的命令
scrapy startproject myproject
2、控制项目创建一个spider
scrapy genspider mydomain mydomain.com
3、使用爬虫进行爬去
$ scrapy crawl myspider
4、进行contract检查
$ scrapy check -l
5、列出当前项目中所有可用的spider。每行输出一个spider
$ scrapy list
6、使用
EDITOR中设定的编辑器编辑给定的spider
$ scrapy edit spider1
7、使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
该命令以spider下载页面的方式获取页面。例如,如果spider有
USER_AGENT属性修改了 User Agent,该命令将会使用该属性。
因此,您可以使用该命令来查看spider如何获取某个特定页面。
该命令如果非项目中运行则会使用默认Scrapy downloader设定。
语法:
scrapy fetch <url>
$ scrapy fetch --nolog http://www.example.com/some/page.html[/code]
8、在浏览器中打开给定的URL
语法:scrapy view <url>在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。 有些时候spider获取到的页面和普通用户看到的并不相同。 因此该命令可以用来检查spider所获取到的页面,并确认这是您所期望的。$ scrapy view http://www.example.com/some/page.html[/code]
9、shell命令
在spider的开发调试过程总,shell命令可以通过交互的方式进行调试,非常方便。
以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell。 查看 Scrapy终端(Scrapy shell) 获取更多信息。$ scrapy shell http://www.example.com/some/page.html[/code]
10、parse命令
语法:scrapy parse <url> [options]
获取给定的URL并使用相应的spider分析处理。如果您提供--callback选项,则使用spider的该方法处理,否则使用parse。
支持的选项:--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider--a NAME=VALUE: 设置spider的参数(可能被重复)--callbackor-c: spider中用于解析返回(response)的回调函数--pipelines: 在pipeline中处理item--rulesor-r: 使用CrawlSpider规则来发现用来解析返回(response)的回调函数--noitems: 不显示爬取到的item--nolinks: 不显示提取到的链接--nocolour: 避免使用pygments对输出着色--depthor-d: 指定跟进链接请求的层次数(默认: 1)--verboseor-v: 显示每个请求的详细信息$ scrapy parse http://www.example.com/ -c parse_item
11、settings
语法:scrapy settings [options]
获取Scrapy的设定
在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定。$ scrapy settings --get BOT_NAME scrapybot $ scrapy settings --get DOWNLOAD_DELAY 0
12、runspider
在未创建项目的情况下,运行一个编写在Python文件中的spider。
语法:scrapy runspider <spider_file.py>$ scrapy runspider myspider.py
13、其他命令version:
语法:scrapy version [-v]
输出Scrapy版本。配合-v运行时,该命令同时输出Python, Twisted以及平台的信息,方便bug提交。deploy
将项目部署到Scrapyd服务。查看 部署您的项目 。
语法:scrapy deploy [ <target:project> | -l <target> | -L ]bench
运行benchmark测试。 Benchmarking 。
语法:scrapy bench
14、自定义项目命令
可以通过COMMANDS_MODULE来添加您自己的项目命令。您可以以 scrapy/commands 中Scrapy commands为例来了解如何实现您的命令。COMMANDS_MODULE
Default:''(empty string)
用于查找添加自定义Scrapy命令的模块。
相关文章推荐
- Python_爬虫学习_2_Scrapy常用工具命令
- Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
- Python爬虫框架Scrapy 学习笔记 10.1 -------【实战】 抓取天猫某网店所有宝贝详情
- python爬虫Scrapy学习,在windows下安装和配置
- Python爬虫框架scrapy 安装学习
- python爬虫框架scrapy学习图片下载
- Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
- Python学习(8)---Scrapy框架下的网络爬虫
- Python网络爬虫框架scrapy的学习
- Python的Scrapy爬虫框架简单学习笔记
- python爬虫学习(9) —— 一些工具和语法
- Python爬虫框架Scrapy 学习笔记 8----Spider
- Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】 抓取天猫某网店所有宝贝详情
- Python的爬虫程序编写框架Scrapy入门学习教程
- win7(win32)安装python 爬虫工具scrapy记录
- Python爬虫框架Scrapy 学习笔记 9 ----selenium
- python爬虫框架scrapy学习笔记
- Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
- python爬虫框架scrapy学习之CrawlSpider
- Python的爬虫程序编写框架Scrapy入门学习教程