[python] 使用urllib从页面上采集信息示例
2017-11-03 21:51
656 查看
环境:linux,python3
作用:模拟Linux curl功能,采集URL信息
示例1:从hbase集群管理页面上采集信息
示例2:从Kafka管理界面上采集队列堵塞数据量信息
作用:模拟Linux curl功能,采集URL信息
示例1:从hbase集群管理页面上采集信息
#!/usr/bin/env python # -*- coding:utf-8 -*- ''' 从URL中采集所需信息,这边是用于采集hbase集群管理页面每秒请求数和region数量 ''' import re import urllib.request pagehandler = urllib.request.urlopen("http://127.0.0.1:60010/master-status?filter=general#baseStats") content = pagehandler.read().decode() result=re.findall('.*Total(.*?)Used Heap.*',content,re.S) ####(.*?)表示除换行外的所有字符,非贪婪模式,re.S使 . 匹配包括换行在内的所有字符 msg = re.findall(r'<td>(\d+)</td>',result[0]) ####取出数值,HBASE集群每秒请求数和region数量。注意,这边取出后为字符串 print(msg)
示例2:从Kafka管理界面上采集队列堵塞数据量信息
#!/usr/bin/env python # -*- coding:utf-8 -*- ''' kafka管理页面上,lag列为消息堵塞数量,无法直接从URL返回的信息中采集该值,需要由logSize-offset计算得出 ''' import json import urllib.request pagehandler = urllib.request.urlopen("http://127.0.0.1:8086/group/test_group") content = pagehandler.read().decode() m = json.loads(content) topic_dict = {} for i in m['offsets']: blocking_num = 0 #print(i['topic'],i['offset'],i['logSize']) blocking_num += (i['logSize'] - i['offset']) ####计算队列堵塞量 if i['topic'] in topic_dict: ####将结果按topic_name:blocking_num存放在字典里 topic_dict[i['topic']] += blocking_num else: topic_dict[i['topic']] = blocking_num #print(topic_dict) for key in topic_dict: if topic_dict[key] > 3000: print("topic:",key,",blocking msg num:",topic_dict[key])
相关文章推荐
- 在Python中使用cookielib和urllib2配合PyQuery抓取网页信息
- 使用Python脚本来获取Cisco设备信息的示例
- Python使用urllib2模块抓取HTML页面资源的实例分享
- 【Python】使用python的tornado配合html页面示例
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- python使用post登陆电子科大信息门户并保存登陆后页面
- Python使用scrapy采集数据过程中放回下载过大页面的方法
- urllib库的简单使用 && 一个简单的Python爬虫示例
- python爬虫之urllib3的使用示例
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例
- 使用python urllib2获取网页信息
- Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例
- windows和linux下使用python2.7 urllib.urlopen+beautifulsoup打开12306网站订票页面表现不同,前者报错ssl认证失败,后者成功
- Python中使用urllib2模块编写爬虫的简单上手示例
- 03—小白学Python爬虫之urllib的基本和进阶使用及Get、Post示例
- 示例 - 25行代码等价实现 - 借助Nodejs在服务端使用jQuery采集17173游戏排行信息
- 使用python+urllib爬取最受欢迎豆瓣影评信息
- 使用Python脚本来获取Cisco设备信息的示例
- Python使用urllib2模块抓取HTML页面资源的实例分享