16Python爬虫---Scrapy目录结构以及项目创建
2018-03-15 00:34
786 查看
一、Scrapy目录结构
在分析之前项目结构的含义之前,我们会先创建爬虫项目。会生成一个与爬虫项目名称同名的文件夹,该文件夹下拥有一个同名的子文件夹和一个scrapy.cfg文件。在同名文件夹mypyj1下存放的爬虫项目的核心代码
scrapy.cfg文件主要是爬虫项目的配置文件
同名子文件夹mypyj1包含[b]init.py,items.py,piplines.py,settings.py等python文件[/b]
(1)__init__.py
此文件为项目的初始化文件,主要写的是一些项目的初始化信息。
(2)items.py
爬虫项目的数据容器文件,主要用来定义我们要获取的数据
(3)piplines.py
爬虫项目的管道文件,主要用来对items里面定义的数据进行进一步的加工与处理
(4)settings.py
爬虫项目的设置文件,主要为爬虫项目的一些设置信息
(5)spiders文件夹
此文件夹下放置的事爬虫项目中的爬虫部分相关
二、创建Scrapy指令
此处都是使用了windows下的cmd界面进行操作1、创建爬虫项目
scrapy startproject 项目名"
2、创建时参数控制
我们在使用上一条命令时,我们可以加上一些参数进行控制。我们可以通过如下命令查看帮助信息。
scrapy startproject -h
以下为具体参数介绍和使用效果
(1)–logfile=FILE
参数主要用来指定日志文件,其中的FILE为指定的日志文件的路径地址
命令:
scrapy startproject --logfile="./logf" mypjt1
这一条命令实现了创建爬虫项目mypjt1,并在当前目录下创建logf.txt的日志文件,我们打开mypjt1可以看大logf.txt文件
(2)–loglevel=LEVEL
参数主要用来控制日志信息的等级,默认为DEBUG模式,即会将对应的调试信息都输出。
等级名 | 含义 |
---|---|
CRITICAL | 发生最严重的错误 |
ERROR | 发生了必须立即处理的错误 |
WARNING | 出现一些警告信息,即存在潜在错误 |
INFO | 输出一些提示信息 |
DEBUG | 输出一些调试信息,常用于开发阶段 |
scrapy startproject --loglevel=DEBUG mypjt1
此时所有的的调试信息都会输出出来。
(3)–nolog
通过此参数可以控制不输出日志信息。
命令
scrapy startproject --nolog mypjt1
三、小结
1、可以根据自己的实际需求调整命令对Scrapy项目进行创建2、在删除时,可以通过直接删除该爬虫项目即可。
3、对爬虫项目中的文件进行编辑,推荐使用JetBrains PyCharm编辑器。
相关文章推荐
- SSH-BOS项目相关配置文件以及目录结构创建
- 第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介
- 初学Android 二 创建项目以及目录结构
- python爬虫 scrapy1-安装及创建第一个项目
- Python3 大型网络爬虫实战 002 --- scrapy 爬虫项目的创建及爬虫的创建 --- 实例:爬取百度标题和CSDN博客
- 利用scrapy创建初始Python爬虫项目
- python项目目录结构
- android项目的目录结构以及简要说明
- LayaAir引擎学习日志5----LayaAir IDE创建TS项目并详解目录结构
- 新建项目,是否勾选“为解决方案创建目录”的文件结构的区别
- python网络爬虫之scrapy 工程创建以及原理介绍
- scrapy创建爬虫项目
- python开源项目目录结构参考
- vue-cli创建的项目的目录结构及说明
- web 目录说明以及web项目目录结构的生成过程
- Python3 大型网络爬虫实战 003 — scrapy 大型静态图片网站爬虫项目实战 — 实战:爬取 169美女图片网 高清图片
- 【python】创建高质量Python工程-如何设计结构清晰的目录结构
- idea中,如何解决创建项目目录非树形结构的问题
- Webpack创建、运行vue.js项目及其目录结构详解