您的位置:首页 > 编程语言 > Python开发

python 爬虫爬取拉勾网信息

2018-04-02 19:59 513 查看
import requests #这个库等价于 urllib 和urllib2
import bs4 #作用是用来解析网页的
import json#主要是一种数据交换格式
def main():
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
"Host":"www.lagou.com","Referer":"https://www.lagou.com/jobs/list_python%20?labelWords=&fromSearch=true&suginput=",
"X-Anit-Forge-Code":"0","X-Anit-Forge-Token":"None","X-Requested-With":"XMLHttpRequest"}
#这个是在你要爬取的网站审查元素了的hesder里,User-Agent这个是必须的。
data={
"first":"ture",
"pn":"1",
"kd":"python"
}#这个data是post请求网页所必需的。爬取网页用什么请求也不是固定的,而是根据hesder里的Request Method来用。
result=requests.post("https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false",headers=header,data=data)
# print(result.text)
json_result=result.json()#转换成json格式的数据
positions=json_result["content"]["positionResult"]["result"]#这个是你要爬取的网页里你需要的数据所在地地方。是字典的形式。
line=json.dumps(positions,ensure_ascii=False)#是把python对象转换成json对象的一个过程,常用的两个函数是dumps和dump函数。两个函数的唯一区别就是dump把python对象转换成json对象生成一个fp的文件流,而dumps则是生成了一个字符串:
with open('C:/Users/dell/Desktop/python.txt', 'w', encoding="utf-8") as f:
f.write(line)#写入到自己电脑里的文件夹。
if __name__ == '__main__':
main()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: