Scrapy command line tool
2017-07-25 11:50
323 查看
本文记录scrapy command中常用命令,所有命令来自scrapy官方文档
创建项目(creating projects)
将会创建一个scrapy项目在project_dir目录下,如果project_dir没有写出,则汇创建一个与项目同名的文件夹
之后进入新项目目录
创建spider
查看所有可用命令
crawl
项目内命令
list
项目内命令
fetch
不需要在项目内
按照scrapy downloader的方式下载url内容
如果在项目外运行,按照默认的scrpy downloader设置下载
支持的选项
–spider = SPIDER:使用特定spider
–headers:打印response头代替response内容
–no-redirect:不进行重定向请求
创建项目(creating projects)
scrapy startproject myproject[project_dir]
将会创建一个scrapy项目在project_dir目录下,如果project_dir没有写出,则汇创建一个与项目同名的文件夹
之后进入新项目目录
cd project_dir
创建spider
scrapy genspider mydomain mydomain.com
scrapy genspider mydomain mydomain.com scrapy genspider -t crawl scrapyorg scrapy.org
查看所有可用命令
scrapy -h
crawl
项目内命令
scrapy crawl <spider>
list
项目内命令
scrapy list
fetch
不需要在项目内
按照scrapy downloader的方式下载url内容
如果在项目外运行,按照默认的scrpy downloader设置下载
支持的选项
–spider = SPIDER:使用特定spider
–headers:打印response头代替response内容
–no-redirect:不进行重定向请求
scrapy fetch --nolog http://www.example.com/some/page.html scrapy fetch --nolog --headers http://www.example.com/[/code]
view
不需要在项目内
可选命令
在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。 有些时候spider获取到的页面和普通用户看到的并不相同。 因此该命令可以用来检查spider所获取到的页面,并确认这是您所期望的。
–spider=Spider:使用特定spider
–no-redirect:不进行重定向请求scrapy view http://www.example.com/some/page.html[/code]
shell
scrapy shell [url]
获取更多信息scrapy shell http://www.example.com/some/page.html scrapy shell --nolog http://www.example.com/ -c '(response.status,response.url)' # you can disable this with --no-redirect # (only for the URL passed as command line argument) scrapy shell --no-redirect --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
parse
语法:scrapy parse <url> [options]
是否需要项目: yes
获取给定的URL并使用相应的spider分析处理。如果您提供 –callback 选项,则使用spider的该方法处理,否则使用 parse 。
支持的选项:
–spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
–a NAME=VALUE: 设置spider的参数(可能被重复)
–callback or -c: spider中用于解析返回(response)的回调函数
–pipelines: 在pipeline中处理item
–rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数
–noitems: 不显示爬取到的item
–nolinks: 不显示提取到的链接
–nocolour: 避免使用pygments对输出着色
–depth or -d: 指定跟进链接请求的层次数(默认: 1)
–verbose or -v: 显示每个请求的详细信息$ scrapy parse http://www.example.com/ -c parse_item [ ... scrapy log lines crawling example.com spider ... ] >>> STATUS DEPTH LEVEL 1 <<< # Scraped Items ------------------------------------------------------------ [{'name': u'Example item', 'category': u'Furniture', 'length': u'12 cm'}] # Requests ----------------------------------------------------------------- []
相关文章推荐
- cordova安装插件的时候提示: “git” command line tool is not installed: make sure it is accessible on your PATH.
- Install YouTube-DL – A Command Line Video Download Tool for Linux
- 运行(Command Line Tool)Terminal App,并且返回输出结果
- JMeterPluginsCMD Command Line Tool
- How do I import a new Java CA cert without using the keytool command line utility?
- 在Mac安装cmake command line tool
- UV Atlas Command-Line Tool (uvatlas.exe)
- macos安装xcode command line tool的两种方法
- [置顶] Scrapy学习笔记III-Command line tool
- Mac OS app, sandbox with command line tool
- How to Use Android ADB Command Line Tool
- MAC Yosemite安装Xcode Command Line Tool
- 使用Java Command Line Tool开发应用程序
- Using Zend_Tool On The Command Line-1
- Using Zend_Tool On The Command Line-2
- 创建一个Mac OS X 下的Command Line Tool程序
- macos 安装 xcode command line tool
- 【Gradle Build Tool 4.1用户指南】Chapter 4. Using the Gradle Command-Line 第4章 使用Gradle命令行
- How to Use Android ADB Command Line Tool on mac
- Mac上安装Xcode5.1和command line tool