scrapy用到的一些配置问题
2017-11-07 19:24
176 查看
从settings开始
scrapy默认只处理200-300的状态码,当有特殊状态码出现的时候就需要自己将要处理的状态码添加进去,然后判断response.statusHTTPERROR_ALLOWED_CODES = [403]
有些网站会检测出scrapy的cookie值,因此要禁用cookie,注意这个禁用的只是scrapy自己的cookie而不是设置的
COOKIES_ENABLED = False
有些重定向挺烦人
REDIRECT_ENABLED = False
超时等待时间过长,会影响爬虫速度,可以根据实际情况调整超时时间以及是否重试
DOWNLOAD_TIMEOUT=30[code]0对哪些状态码进行重试,默认是500,502,503,504,408RETRY_ENABLED 是否开启重试RETRY_TIMES 重试次数
[code]RETRY_HTTP_CODECS
[/code][/code]
电脑cpu配置比较好的可以修改并发数量
CONCURRENT_REQUESTS = 32
设置爬虫暂停、恢复的状态保存
JOBDIR=filename
配置请求头的三个位置
spider中发送请求的时候,优先级最高middleware中利用requests.headers.setdefault()循环便利便利一个字典设置的优先级次之
在settings中DEFAULT_REQUEST_HEADERS={}设置的优先级最低
运行爬虫时可以进行的操作
CLOSESPIDER_TIMEOUT(秒)、
CLOSESPIDER_ITEMCOUNT、
CLOSESPIDER_PAGECOUNT、
CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的
Item之后、在收到了指定数目的响应之后、在发生了指定数目的错误之后就终止爬虫程序
scrapy crawl fast-s CLOSESPIDER_TIMEOUT=10
设置这个爬虫项目运行10s停止
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
这个也可以让爬虫实现暂停和恢复,使用ctrl+c暂停,恢复仍然使用这句话
相关文章推荐
- Linux下的python 配置项目环境遇到的一些问题
- nodejs的一些配置问题
- spring mvc+hibernate 配置c3p0数据源一些问题
- 使用vim配置方案spf13中碰到的一些问题
- java 开发环境配置,碰到的一些问题
- 配置IIS 7 时遇到的一些问题
- Discuz!NT 1.0论坛配置的一些问题的解决方案
- 记录软件开发中的一些软件配置等问题
- Spring的Acegi security的配置,和JDK1.5的一些问题
- Samsung x210 Android makefile 的一些配置实例问题
- cnetOS7,Gnome3一些配置问题
- 关于转换的问题,平时用到一些 内置类型之间的 转换方法如atoi atof itoa sprintf 等 istrstream ostrstream strstream【2013.10.21】
- 关于Wamp配置运行中的一些问题
- [项目过程中所遇到的各种问题记录]ORM篇——使用NHibernate配置对象实体的一些小问题 22
- struts2配置中的一些问题
- 配置SpringMVC注解遇到的一些小问题
- win8 64位 + VS2013 + PCL 1.7.2 配置的一些问题
- 配置 Hdp 4 Window 中的一些问题
- 安装ORACLE RAC时,用到的一些小命令1.弹出CD,2:配置时间同步,3.查看磁盘信息UUID
- 一些开源数据库问题及其配置文件地址