#python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据
2017-06-28 16:22
393 查看
将python环境配置好后,接下来就可以开始动手coding了!
1.创建excel并插入头部数据:
这里的30是总页数,可以从网页中获得,这里为了简便,就暂时写了一个固定值。
2.获取网页数据
获取网页数据需要用到python自带的urllib(type为分类,如:Android,iOS等;index为页数),然后我们可以把获得的data,转成soup用于解析:
可以通过print(data),查看获取到的结果。
3.解析网页数据
通过打印出来的数据可以发现,每个class为“con_list_item default_list”的<li>标签都对应一条职位信息,其中的data-company(公司名称),data-positionname(职位名称),data-salary(薪资)等几个属性正是我们需要的,因此我们需要通过soup去取得这个标签,拿到这些值:
通过soup的find_all方法可以找到整个网页中所有的class为“con_list_item default_list”的<li>标签,然后遍历每个<li>标签取得对应的职位属性,赋值到对应的行,这里我把属性值又赋给了一个叫做RecruitInfo的对象,主要是为了练习一下在python中创建类,只是实现功能的话,也可以直接赋值。sheet.write_merge就是将数值以对应的style写入到对应行、对应列中。
工作年限这个属性由于没有类似class的标识符,因此我是通过截取字符串拿的:
好了,到这里整个爬虫就好了。运行一下应该就可以看到效果了!通过标签获取网页上的数据是爬虫的一种方式,还可以通过json去获取,那就需要一些网络方面的知识了,如抓包等等,有空再来研究一下。
PS:写到这里,鄙人刚想运行一下截个图,就发现拉勾所有的页面,请求下来都变成了这个样子。。。
真的是欲哭无泪啊!!!
7.10更新:
终于找到了上面问题的原因!原来是网站拒绝了此类访问(我在抓智联数据的时候,它提醒我错误502,我才想起是这个原因,拉钩对502这个错误做了处理,真的很心机啊!),ok既然找到了问题,接下来解决就好,我发现在浏览器上依然是可以通过网址打开网页的,因此想通过python获取网页数据,就必须通过设置headers来伪装成浏览器就好了:
抓到的部分数据如下:
Demo下载链接:点我下载(审核通过后更新)
1.创建excel并插入头部数据:
这里的30是总页数,可以从网页中获得,这里为了简便,就暂时写了一个固定值。
2.获取网页数据
获取网页数据需要用到python自带的urllib(type为分类,如:Android,iOS等;index为页数),然后我们可以把获得的data,转成soup用于解析:
可以通过print(data),查看获取到的结果。
3.解析网页数据
通过打印出来的数据可以发现,每个class为“con_list_item default_list”的<li>标签都对应一条职位信息,其中的data-company(公司名称),data-positionname(职位名称),data-salary(薪资)等几个属性正是我们需要的,因此我们需要通过soup去取得这个标签,拿到这些值:
通过soup的find_all方法可以找到整个网页中所有的class为“con_list_item default_list”的<li>标签,然后遍历每个<li>标签取得对应的职位属性,赋值到对应的行,这里我把属性值又赋给了一个叫做RecruitInfo的对象,主要是为了练习一下在python中创建类,只是实现功能的话,也可以直接赋值。sheet.write_merge就是将数值以对应的style写入到对应行、对应列中。
工作年限这个属性由于没有类似class的标识符,因此我是通过截取字符串拿的:
好了,到这里整个爬虫就好了。运行一下应该就可以看到效果了!通过标签获取网页上的数据是爬虫的一种方式,还可以通过json去获取,那就需要一些网络方面的知识了,如抓包等等,有空再来研究一下。
PS:写到这里,鄙人刚想运行一下截个图,就发现拉勾所有的页面,请求下来都变成了这个样子。。。
真的是欲哭无泪啊!!!
7.10更新:
终于找到了上面问题的原因!原来是网站拒绝了此类访问(我在抓智联数据的时候,它提醒我错误502,我才想起是这个原因,拉钩对502这个错误做了处理,真的很心机啊!),ok既然找到了问题,接下来解决就好,我发现在浏览器上依然是可以通过网址打开网页的,因此想通过python获取网页数据,就必须通过设置headers来伪装成浏览器就好了:
抓到的部分数据如下:
Demo下载链接:点我下载(审核通过后更新)
相关文章推荐
- #python学习笔记#使用python爬取拉勾网职位信息(一):环境配置及库安装
- 【python日常一】使用python抓取拉勾网职位信息并做简单统计分析
- 拉勾网爬取全国python职位并数据分析薪资,工作经验,学历等信息
- python pickle模块使用-将内存数据保存到文本中以及从文本中直接读取信息到内存中
- python爬取拉勾网招聘信息并利用pandas做简单数据分析
- python爬取拉勾网职位数据
- 使用scrapy爬取拉勾网职位信息
- Python scrapy使用入门,爬取拉勾网上万条职位信息(上)
- Python中如何使用以及去除时间序列数据中的趋势信息
- python爬取拉勾网任意职位数据
- 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
- 使用Spark分析拉勾网招聘信息(二): 获取数据
- python爬取拉勾网职位数据的方法
- 实战Python爬取拉勾网职位数据
- [置顶] python3 scrapy 入门级爬虫 爬取数万条拉勾网职位信息
- #python学习笔记#使用python爬取网站数据并保存到数据库
- python爬虫,获取拉勾网职位信息,修改网上旧版不能用的问题
- 使用Spark分析拉勾网招聘信息(二): 获取数据
- 通俗易懂的分析如何用Python实现一只小爬虫,爬取拉勾网的职位信息
- 使用python urllib2获取网页信息