基于python实时抓取广州市pm2.5数据
2019-03-19 10:50
281 查看
本文主要参考https://blog.csdn.net/beiniao520/article/details/79582443
代码是基于python3.7参考上述博客编写的
import threading import re,sys import time import hashlib import os from urllib import request sys.setdefaultencoding='utf-8' def fetchdata(city): md5='' while True: temp='http://www.pm25.in/'+ city url=request.urlopen(temp) text=url.read() reg='<td>(.*?)</td>' comreg=re.compile(reg,re.S) shuju=re.findall(comreg,text.decode('utf-8'))#需要将text解码成字符串 data_time = re.findall("\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}",text.decode('utf-8'),re.S) md52=hashlib.md5() md52.update(data_time[0].encode('utf-8'))#参数是bytes类型,所以要进行编码 if md52.hexdigest()==md5: time.sleep(3600) contiune md5=md52.hexdigest() i=1 data=[] dataname=data_time[0] dataname1=dataname.replace(':','') tempdata=open('G:/desktop/'+dataname1+'.txt','a') #创建并打开文件准备写入数据,每小时生成一个文件 for each in shuju: data.append(each) i+=1 if i>10: data.append(data_time[0]) i=1 tempdata.write(','.join(data)+'\\n') data=[] tempdata.close()#写完文件关闭 print (city) print (data_time[0]) print (time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))) time.sleep(3600) fetchdata('guangzhou')
相关文章推荐
- 基于Python的实时爬虫每小时PM2.5等污染物数据
- [ python3 ] 基于zabbix 自动抓取每天监控数据
- Python基于多线程实现抓取数据存入数据库的方法
- Python 实现股票数据的实时抓取
- python淘宝爬虫基于requests抓取淘宝商品数据
- Python 实现股票数据的实时抓取
- python淘宝爬虫基于requests抓取淘宝商品数据
- Python爬虫练习之一:抓取美团数据
- Python一个简单的抓取天气数据的API接口
- 基于邮件系统的远程实时监控系统的实现 Python版
- 基于Python的Face_recognition来实现实时人脸识别
- 数据分析:基于Python的自定义文件格式转换系统
- Python爬虫入门教程 24-100 微医挂号网医生数据抓取
- 基于随机采样获取训练、测试数据示例(Python)
- Python 基于websocket实时通信的实现—GoEasy
- python抓取动态数据
- 【python爬虫】二手房房源数据抓取示例
- 运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中
- 基于Spark的公安大数据实时运维技术实践
- Python实例之抓取淘宝商品数据(json型数据)并保存为TXT