您的位置：首页 > 编程语言 > Python开发

16Python爬虫---Scrapy目录结构以及项目创建

2018-03-15 00:34 786 查看

一、Scrapy目录结构

在分析之前项目结构的含义之前，我们会先创建爬虫项目。会生成一个与爬虫项目名称同名的文件夹，该文件夹下拥有一个同名的子文件夹和一个scrapy.cfg文件。

在同名文件夹mypyj1下存放的爬虫项目的核心代码

scrapy.cfg文件主要是爬虫项目的配置文件

同名子文件夹mypyj1包含[b]init.py，items.py，piplines.py，settings.py等python文件[/b]

（1）__init__.py

此文件为项目的初始化文件，主要写的是一些项目的初始化信息。

（2）items.py

爬虫项目的数据容器文件，主要用来定义我们要获取的数据

（3）piplines.py

爬虫项目的管道文件，主要用来对items里面定义的数据进行进一步的加工与处理

（4）settings.py

爬虫项目的设置文件，主要为爬虫项目的一些设置信息

（5）spiders文件夹

此文件夹下放置的事爬虫项目中的爬虫部分相关

二、创建Scrapy指令

此处都是使用了windows下的cmd界面进行操作

1、创建爬虫项目

scrapy startproject 项目名"

2、创建时参数控制

我们在使用上一条命令时，我们可以加上一些参数进行控制。我们可以通过如下命令查看帮助信息。

scrapy startproject -h

以下为具体参数介绍和使用效果

（1）–logfile=FILE

参数主要用来指定日志文件，其中的FILE为指定的日志文件的路径地址

命令：

scrapy startproject --logfile="./logf" mypjt1

这一条命令实现了创建爬虫项目mypjt1，并在当前目录下创建logf.txt的日志文件，我们打开mypjt1可以看大logf.txt文件

（2）–loglevel=LEVEL

参数主要用来控制日志信息的等级，默认为DEBUG模式，即会将对应的调试信息都输出。


等级名	含义
CRITICAL	发生最严重的错误
ERROR	发生了必须立即处理的错误
WARNING	出现一些警告信息，即存在潜在错误
INFO	输出一些提示信息
DEBUG	输出一些调试信息，常用于开发阶段

命令：

scrapy startproject --loglevel=DEBUG mypjt1

此时所有的的调试信息都会输出出来。

（3）–nolog

通过此参数可以控制不输出日志信息。

命令

scrapy startproject --nolog mypjt1

三、小结

1、可以根据自己的实际需求调整命令对Scrapy项目进行创建

2、在删除时，可以通过直接删除该爬虫项目即可。

3、对爬虫项目中的文件进行编辑，推荐使用JetBrains PyCharm编辑器。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： scrapy 爬虫

相关文章推荐

新的分享

章节导航