python 爬虫爬取拉勾网信息
2018-04-02 19:59
513 查看
import requests #这个库等价于 urllib 和urllib2 import bs4 #作用是用来解析网页的 import json#主要是一种数据交换格式 def main(): header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36", "Host":"www.lagou.com","Referer":"https://www.lagou.com/jobs/list_python%20?labelWords=&fromSearch=true&suginput=", "X-Anit-Forge-Code":"0","X-Anit-Forge-Token":"None","X-Requested-With":"XMLHttpRequest"} #这个是在你要爬取的网站审查元素了的hesder里,User-Agent这个是必须的。 data={ "first":"ture", "pn":"1", "kd":"python" }#这个data是post请求网页所必需的。爬取网页用什么请求也不是固定的,而是根据hesder里的Request Method来用。 result=requests.post("https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false",headers=header,data=data) # print(result.text) json_result=result.json()#转换成json格式的数据 positions=json_result["content"]["positionResult"]["result"]#这个是你要爬取的网页里你需要的数据所在地地方。是字典的形式。 line=json.dumps(positions,ensure_ascii=False)#是把python对象转换成json对象的一个过程,常用的两个函数是dumps和dump函数。两个函数的唯一区别就是dump把python对象转换成json对象生成一个fp的文件流,而dumps则是生成了一个字符串: with open('C:/Users/dell/Desktop/python.txt', 'w', encoding="utf-8") as f: f.write(line)#写入到自己电脑里的文件夹。 if __name__ == '__main__': main()
相关文章推荐
- python爬虫爬取拉勾网职业信息
- python爬虫爬取拉勾网职业信息
- Python爬虫:爬取拉勾网招聘信息
- [置顶] python3 scrapy 入门级爬虫 爬取数万条拉勾网职位信息
- Python学习之路 (六)爬虫(五)爬取拉勾网招聘信息
- 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
- python爬虫,获取拉勾网职位信息,修改网上旧版不能用的问题
- 通俗易懂的分析如何用Python实现一只小爬虫,爬取拉勾网的职位信息
- Python开发爬虫爬取百度百科词条信息(源码下载)
- Python爬虫学习---------根据分类爬取豆瓣电影的电影信息
- Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)
- Python爬虫实战---抓取图书馆借阅信息
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
- Python3.6爬虫爬取豆瓣电影Top250信息
- Python定向爬虫——校园论坛帖子信息
- Python进阶(十八)-Python3爬虫小试牛刀之爬取CSDN博客个人信息
- 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(1)
- Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)
- Python爬取拉勾网招聘信息
- Python爬虫框架Scrapy实战之批量抓取招聘信息