您的位置:首页 > 编程语言 > Python开发

用CrwalSpider爬取boss直聘

2020-06-25 15:43 357 查看

精选30+云产品,助力企业轻松上云!>>>

from  boss.items.=  import  BossItem

class  ZhiPinSpider(CrwalSpider):
name='Zhipin'
allwed_domains=['zhipin.com']
start_urls=['https://www.zhipin.com/c100010000/?query=python&page=1']

rules={
#匹配职位列表页的规则
Rule(LinkExtractor(allow=r'.+\?query=python&page=\d'),follow=True)

#匹配职位详情页的规则
Rule(LinkExtractor(allow=r'.+\?query=python&page=\d'),callback="parse_job",follow=False)

def  parse_job(self,response):
title=response.xpath('//h1[@class="name"]/text()').get().strip()
company=response.xpath('//div[@class="info-company"]//a/text()').get()
item=BossItem(title=title,company=company)
yield  item

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python strip def