关于scrapy爬取51job网以及智联招聘信息存储文件的设置
2018-03-02 21:32
337 查看
通过这两个文件,,可以存储数据(但是注意在爬虫文件中也在写相应的代码具体参考51job网和智联招聘两个文件)
1.先设置items文件# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class JobspiderItem(scrapy.Item):
# define the fields for your item here like:
job_name = scrapy.Field()
fan_kui_lv = scrapy.Field()
job_company_name = scrapy.Field()
job_salary = scrapy.Field()
job_place = scrapy.Field()
job_type = scrapy.Field()
job_time = scrapy.Field()
2.设置管道文件
1.先设置items文件# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class JobspiderItem(scrapy.Item):
# define the fields for your item here like:
job_name = scrapy.Field()
fan_kui_lv = scrapy.Field()
job_company_name = scrapy.Field()
job_salary = scrapy.Field()
job_place = scrapy.Field()
job_type = scrapy.Field()
job_time = scrapy.Field()
2.设置管道文件
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html #pipeline:俗称管道,用于接收爬虫返回的item数据 class JobspiderPipeline(object): def process_item(self, item, spider): return item class TocsvPipeline(object): def process_item(self, item, spider): with open("job.csv", "a",encoding="gb18030") as f: job_name = item['job_name'] fan_kui_lv = item['fan_kui_lv'] job_company_name = item['job_company_name'] job_salary = item['job_salary'] job_place = item['job_place'] job_type = item['job_type'] job_time = item['job_time'] job_info = [job_name, fan_kui_lv, job_company_name, job_salary, job_place, job_type, job_time,'\n'] f.write(",".join(job_info)) #把item传递给下一个pipeline return item
相关文章推荐
- 关于swift中的plist文件的写入用来存储信息,例如登录的时候出入信息,这里给一个完成的代码
- 关于Tomcat的点点滴滴(体系架构、处理http请求的过程、安装和配置、文件夹结构、设置压缩和对中文文件名称的支持、以及Catalina这个名字的由来……等)
- 【IDE-Visual Studio】关于exe的版本中“文件版本”和其他版本信息中的“文件版本”、以及“产品版本”
- JAVA中关于自定义类的存储以及读出(文件)
- scrapy框架下爬取51job网站信息,并存储到表格中
- linux: bash登录的显示信息设置以及环境配置文件.
- 基于scrapy框架下爬取智联招聘--并把信息存储下来
- 关于RMAN的配置信息存储和控制文件的关系
- 关于域名解析即DNS的理解,以及hosts文件跟域名解析的关系。tomcat发布的工程,怎么设置一个虚拟域名?
- CentOS下设置vimrc,添加文件注释信息以及设置tab 键为4 格
- 关于文件、网络传输以及内存存储的大小端问题
- 关于RMAN的配置信息存储和控制文件的关系
- 关于修改mysql账号信息导致存储过程无法访问的问题
- 轻量级ORM开发系列:缓存类信息以及配置文件的处理
- 关于Android开发中布局文件中各种值的设置存放的个人观点(按照布局文件来进行存放value值)
- 关于SAN-存储RAID组及RAID级别设置<一些微不足道的建议> 推荐
- Java利用.property文件存储数据库配置信息,方便修改。
- 关于Cocos2d 开发中有关精灵、精灵帧、精灵帧缓存、精灵表单以及plist文件之间的关系
- 关于git忽略(局部忽略、全局忽略)文件和文件夹的设置方法
- 关于手机设置中的RAM及内部存储空间