使用Python将TXT文本内容读取后生成指定XML格式的文件
2017-08-13 16:20
1046 查看
任务说明:
解析服务器内存和CPU信息。格式是无后缀的文本格式。将其转换为统一XML格式。
源文件名:zmonitor.2017-04-06-14_28
统一的XML文件格式(示例):
需求:
将文本格式转换成统一的XML格式,并形成文件。
文件名上的日期,是监控时间点,读取后写入统一XML格式中。
思路:
因为统一的XML格式是一个服务器3段标签,其中重复信息比较多。所以先生成JSON格式,以后方便读取。
根本原因是领导还在协商使用XML还是JSON。
再将JSON格式的依次插入到XML中。
生成XML文件。
代码简述:
声明CLASS readFileToXML
初始化类(要求一个参数:文件完整路径)
第一个方法:getTime,根据文件名获取监控时间点。
“2017-04-06-14_28”需要注意的地方是,最后一个“-”需要替换为空格。因为字符串不能单独修改,则转换成LIST修改后,再转格式为string
第二个方法:readFileToDict,解析源文件并生成JSON。
这里有个坑要说一下,生成XML的时候,要求值为字符串。因为牵扯计算,所以其中一个值为FLOAT格式存入JSON。但当这个float的值存入XML文件时报错。
所以这个坑是在XML模块中,并不是JSON的。当时好找一顿。
第三个方法:json2XML,将JSON格式数据按照XML统一格式转换。
简单xml模块使用。
doc = Document() #创建DOM文档对象
root = doc.createElement('root') # 创建根元素
doc.appendChild(root) # 将根标签root加载到doc结构下。
以我的XML为例节点顺序:doc>root>Platform>PlatformNum
| >Module
>datas>data
> .......
这里的坑是如果你要在root标签下添加Platform标签则需要:root.appendChild(Platform)
创建节点和文本等,都是doc.createXXXX。但添加到指定节点时,则是节点元素Platform.appendChild(Module)
呵呵,有点啰嗦。
第四个方法:makeXML,生成XML文件保存。
没什么要说的,doc.toprettyxml(indent='')就是之前所有操作后的结果。
代码如下:
调试代码:(调试代码和代码在同级目录下)
后记:
领导4月7号周五上午布置任务,要求月底之前交。结果开开心心干了半天就看小说了。周六日开开心心睡大觉。结果今天上午10点就说这两天就要。哎,亏着勤劳,一上午就弄完了。要不然就被领导坑了。大家共勉吧,勤劳共勉。
领导改需求了,要在linux当脚本跑,于是改了一下调用方式。
解析服务器内存和CPU信息。格式是无后缀的文本格式。将其转换为统一XML格式。
源文件名:zmonitor.2017-04-06-14_28
172.17.8.64 saptmqas_cpu 431 CPU utilization percentage : 1% 172.17.8.95 saptmprd_cpu 426 CPU utilization percentage : 6% 172.17.8.63 saptmdev_cpu 421 CPU utilization percentage : 2.5% 172.17.8.91 saptm2prd_cpu 487 CPU utilization percentage : 24.75% 172.17.8.66 sappoqas_cpu 394 CPU utilization percentage : 1.75% 172.17.8.93 sappoprd_cpu 382 CPU utilization percentage : 1.125% 172.17.8.62 sappodev_cpu 313 CPU utilization percentage : 2.5% 172.17.8.78 sapmdmqas_cpu 450 CPU utilization percentage : 1.5% 172.17.8.79 sapmdmprd_cpu 445 CPU utilization percentage : 1% 172.17.8.72 sapmdmdev_cpu 440 CPU utilization percentage : 3.5% 172.17.8.74 sapepdev_cpu 462 CPU utilization percentage : 1% 172.17.8.65 sapemqas_cpu 413 CPU utilization percentage : 1% 172.17.8.96 sapemprd_cpu 408 CPU utilization percentage : 1% 172.17.8.61 sapemdev_cpu 403 CPU utilization percentage : 1.5% 172.17.8.83 sapeccqas_cpu 364 CPU utilization percentage : 1.5% 172.17.8.92 sapem2prd_cpu 476 CPU utilization percentage : 1% 172.17.8.89 sapeccprd_2_cpu 376 CPU utilization percentage : 6.75% 172.17.8.88 sapeccprd_1_cpu 372 CPU utilization percentage : 4.625% 172.17.8.87 sapeccprd_0_cpu 368 CPU utilization percentage : 1% 172.17.8.80 sapeccdev_cpu 336 CPU utilization percentage : 2.625% 172.17.8.76 sapbpmprd_cpu 468 CPU utilization percentage : 1.75% 172.17.8.73 sapbpmdev_cpu 457 CPU utilization percentage : 1% 172.17.8.64 saptmqas_memval 519 Disk OK - Physical memory TOTAL: 31.361GB USED: 30.801GB (98%) FREE: 0.560GB (2%) 172.17.8.95 saptmprd_memval 518 Disk OK - Physical memory TOTAL: 47.342GB USED: 46.992GB (99%) FREE: 0.350GB (1%) 172.17.8.63 saptmdev_memval 517 Disk OK - Physical memory TOTAL: 31.361GB USED: 31.088GB (99%) FREE: 0.272GB (1%) 172.17.8.91 saptm2prd_memval 516 Disk OK - Physical memory TOTAL: 47.137GB USED: 46.847GB (99%) FREE: 0.290GB (1%) 172.17.8.66 sappoqas_memval 515 Disk OK - Physical memory TOTAL: 31.361GB USED: 30.074GB (95%) FREE: 1.287GB (5%) 172.17.8.93 sappoprd_memval 514 Disk OK - Physical memory TOTAL: 31.357GB USED: 31.141GB (99%) FREE: 0.216GB (1%) 172.17.8.62 sappodev_memval 513 Disk OK - Physical memory TOTAL: 31.358GB USED: 31.051GB (99%) FREE: 0.306GB (1%) 172.17.8.78 sapmdmqas_memval 512 Disk OK - Physical memory TOTAL: 15.577GB USED: 15.325GB (98%) FREE: 0.253GB (2%) 172.17.8.79 sapmdmprd_memval 511 Disk OK - Physical memory TOTAL: 62.917GB USED: 62.499GB (99%) FREE: 0.418GB (1%) 172.17.8.72 sapmdmdev_memval 510 Disk OK - Physical memory TOTAL: 15.577GB USED: 15.421GB (98%) FREE: 0.156GB (2%) 172.17.8.74 sapepdev_memval 509 Disk OK - Physical memory TOTAL: 31.343GB USED: 28.224GB (90%) FREE: 3.119GB (10%) 172.17.8.65 sapemqas_memval 508 Disk OK - Physical memory TOTAL: 15.579GB USED: 15.364GB (98%) FREE: 0.215GB (2%) 172.17.8.96 sapemprd_memval 507 Disk OK - Physical memory TOTAL: 31.342GB USED: 30.852GB (98%) FREE: 0.490GB (2%) 172.17.8.61 sapemdev_memval 506 Disk OK - Physical memory TOTAL: 31.486GB USED: 31.166GB (98%) FREE: 0.320GB (2%) 172.17.8.92 sapem2prd_memval 505 Disk OK - Physical memory TOTAL: 35.302GB USED: 34.755GB (98%) FREE: 0.547GB (2%) 172.17.8.89 sapeccprd_2_memval 503 Disk OK - Physical memory TOTAL: 47.137GB USED: 41.424GB (87%) FREE: 5.712GB (13%) 172.17.8.83 sapeccqas_memval 504 Disk OK - Physical memory TOTAL: 15.579GB USED: 15.381GB (98%) FREE: 0.198GB (2%) 172.17.8.88 sapeccprd_1_memval 502 Disk OK - Physical memory TOTAL: 47.122GB USED: 46.764GB (99%) FREE: 0.359GB (1%) 172.17.8.87 sapeccprd_0_memval 501 Disk OK - Physical memory TOTAL: 7.688GB USED: 7.552GB (98%) FREE: 0.136GB (2%) 172.17.8.80 sapeccdev_memval 500 Disk OK - Physical memory TOTAL: 15.579GB USED: 15.283GB (98%) FREE: 0.297GB (2%) 172.17.8.76 sapbpmprd_memval 499 Disk OK - Physical memory TOTAL: 31.358GB USED: 31.117GB (99%) FREE: 0.241GB (1%) 172.17.8.73 sapbpmdev_memval 498 Disk OK - Physical memory TOTAL: 31.673GB USED: 31.031GB (97%) FREE: 0.642GB (3%)
统一的XML文件格式(示例):
<?xml version="1.0" encoding="UTF-8"?> <root> <Platform date="2017-02-28 12:00:00"> <PlatformNum description="数据中心监控平台编号,以便识别****************************"> 1872_ZABBIX </PlatformNum> <!-- 扩展属性,没有就不写,主要目的是同一个平台传送多种格式时区分 --> <Module description="模块编号"> M1 </Module> </Platform> <datas description="数据"> <!-- 一条数据一个data节点,并告知关联的CI流水号 ciNum 被监控服务器的ID,预留字段,未来和CMDB建立关联,目前可以空着。 datetime 监控时间点 host 被监控的服务器名称 ip ip地址 itemName 被监控的服务器资源的属性 首期为 CPU空闲率(CPU idle time)大于等于0小于等于1,用于计算CPU利用率=(1-CPU idle time)*100%;空余内存数量(Free real memory)单位MB 和 总内存数量(Total memory)单位MB 用于计算内存利用率= (Free real memory/ Total memory) *100% itemValue 监控值,单位cpu为百分比,0.32实为32%; 内存是GB;实际各家的监控信息也可了解一下? --> <data ciNum="CI201702230001" datetime="2017-02-28 12:00:00" host="lxbdb01" ip="172.32.224.73" itemName="CPU idle time" itemValue="0.3233" > </data> <data ciNum="CI201702230001" datetime="2017-02-28 12:00:00" host="lxbdb01" ip="172.32.224.73" itemName="Total memory" itemValue="128000000" > </data> <data ciNum="CI201702230001" datetime="2017-02-28 12:00:00" host="lxbdb01" ip="172.32.224.73" itemName="Free real memory" itemValue="30666000" > </data> <data ciNum="CI201701260002" datetime="2017-02-28 12:00:00" host="lxbdb02" ip="172.32.224.78" itemName="CPU idle time" itemValue="0.3233" > </data> <data ciNum="CI201701260002" datetime="2017-02-28 12:00:00" host="lxbdb02" ip="172.32.224.78" itemName="Total memory" itemValue="96000000" > </data> <data ciNum="CI201701260002" datetime="2017-02-28 12:00:00" host="lxbdb02" ip="172.32.224.78" itemName="Free real memory" itemValue="60222000" > </data> </datas> </root>
需求:
将文本格式转换成统一的XML格式,并形成文件。
文件名上的日期,是监控时间点,读取后写入统一XML格式中。
思路:
因为统一的XML格式是一个服务器3段标签,其中重复信息比较多。所以先生成JSON格式,以后方便读取。
根本原因是领导还在协商使用XML还是JSON。
再将JSON格式的依次插入到XML中。
生成XML文件。
代码简述:
声明CLASS readFileToXML
初始化类(要求一个参数:文件完整路径)
第一个方法:getTime,根据文件名获取监控时间点。
“2017-04-06-14_28”需要注意的地方是,最后一个“-”需要替换为空格。因为字符串不能单独修改,则转换成LIST修改后,再转格式为string
第二个方法:readFileToDict,解析源文件并生成JSON。
这里有个坑要说一下,生成XML的时候,要求值为字符串。因为牵扯计算,所以其中一个值为FLOAT格式存入JSON。但当这个float的值存入XML文件时报错。
所以这个坑是在XML模块中,并不是JSON的。当时好找一顿。
第三个方法:json2XML,将JSON格式数据按照XML统一格式转换。
简单xml模块使用。
doc = Document() #创建DOM文档对象
root = doc.createElement('root') # 创建根元素
doc.appendChild(root) # 将根标签root加载到doc结构下。
以我的XML为例节点顺序:doc>root>Platform>PlatformNum
| >Module
>datas>data
> .......
这里的坑是如果你要在root标签下添加Platform标签则需要:root.appendChild(Platform)
创建节点和文本等,都是doc.createXXXX。但添加到指定节点时,则是节点元素Platform.appendChild(Module)
呵呵,有点啰嗦。
第四个方法:makeXML,生成XML文件保存。
没什么要说的,doc.toprettyxml(indent='')就是之前所有操作后的结果。
代码如下:
#coding=utf-8 2017/4/7 __author__ = 'Asktao' import os from xml.dom.minidom import Document class readFileToXML(object): def __init__(self, filepath): self.filepath = filepath # 完整路径 self._path = os.path.split(filepath)[0] # 文件的路径 self._filename = os.path.split(filepath)[1] # 文件的名称 self.DATA_JSON = readFileToXML.readFileToDict(self) # JSON格式数据 self.DATA_XML = readFileToXML.json2XML(self) # XML格式数据 def getTime(self): ''' 文件名格式:zmonitor.2017-04-06-14_28 把文件名的中的时间信息截取出来。格式:2017-04-06 14:28:00 ''' getTime_str = self._filename.partition(".")[2].replace("_", ":") # name.partition(".")的结果为("zmonitor", ".", "2017-04-06-14_28") getTime_list = list(getTime_str) getTime_list[10] = " " # 字符串不可以单独修改,则修改格式为列表格式,修改后再整体修改为字符串格式。 getTime_str = "".join(getTime_list) return getTime_str+":00" def readFileToDict(self): ''' 解析原始文件,提取信息存为字典格式(JSON) ''' JSON_dict = {"hosts": {}} # 用于这里原始文件的数据,编排成JSON格式。 fileUpdataTime = readFileToXML.getTime(self) # 取文件名中包含的时间。 JSON_dict["datetime"] = fileUpdataTime with open(self.filepath, "r", encoding="utf-8") as file: for line in file: line = line.replace("\n", "") line_item = line.split("\t") if line_item[1].endswith("_cpu"): ip = line_item[0] # IP地址 name = line_item[1].partition('_')[0] # 机器名 num3 = line_item[2] # 不知道做什么的三位数 CPU_utilization_percentage = line_item[3].partition(":")[2] # CPU占用率 **% CPU_utilization_percentage = CPU_utilization_percentage.replace("%", "") # CPU占用率 去掉%号 CPU_utilization_percentage = str(float(100) - float(CPU_utilization_percentage)) # 求得CPU空闲时间 if not ip in JSON_dict["hosts"]: #判断JSON_dict中索引是否存在,如不在则创建 JSON_dict["hosts"][ip] = {} # 用IP做索引(用IP做一级目录) JSON_dict["hosts"][ip]["ip"] = ip # 添加机器名到JSON_dict JSON_dict["hosts"][ip]["name"] = name # 添加机器名到JSON_dict JSON_dict["hosts"][ip]["num3"] = num3 # 添加不知道什么的3位数,到JSON_dict # CPU占用率 JSON_dict["hosts"][ip]["CPU_utilization_percentage"] = CPU_utilization_percentage elif line_item[1].endswith("_memval"): ip = line_item[0] # IP地址 num3_2 = line_item[2] # 不知道做什么的三位数+ temp_info = line_item[3].split(" ") #print(temp_info) Physical_memory_TOTAL = temp_info[6] #.replace("GB", "") # 物理内存总量 Physical_memory_USED = temp_info[8] #.replace("GB", "") # 物理内存使用量 Physical_memory_FREE = temp_info[11] #.replace("GB", "") # 物理内存剩余量 if not ip in JSON_dict["hosts"]: # 判断JSON_dict中索引是否存在,如不在则创建 JSON_dict["hosts"][ip] = {} # 用IP做索引(用IP做一级目录) JSON_dict["hosts"][ip]["ciNum"] = "(被监控服务器的ID,预留字段)" # 添加被监控服务器ID到JSON_dict JSON_dict["hosts"][ip]["num3"] = num3_2 # 添加不知道什么的3位数,到JSON_dict JSON_dict["hosts"][ip]["Physical_memory_TOTAL"] = Physical_memory_TOTAL # 添加内存总量 JSON_dict["hosts"][ip]["Physical_memory_USED"] = Physical_memory_USED # 添加使用量 JSON_dict["hosts"][ip]["Physical_memory_FREE"] = Physical_memory_FREE # 添加剩余空间量 else: print("文件内部格式错误,请检查第二列,*****_cup 和 ******_memval,是否合规。") print("错误信息如下:%s" % line_item[1]) return JSON_dict def json2XML(self): ''' 生成XML文档。 ''' doc = Document() #创建DOM文档对象 root = doc.createElement('root') # 创建根元素 doc.appendChild(root) Platform = doc.createElement('Platform') # 创建root下第一节点Platform Platform.setAttribute("date", self.DATA_JSON["datetime"]) # **赋值时间 root.appendChild(Platform) PlatformNum = doc.createElement('PlatformNum') # 创建Platform第一节点PlatformNum PlatformNum.setAttribute("description", "数据中心监控平台编号,以便识别,*****************************") PlatformNum_title = doc.createTextNode("1872_ZABBIX") PlatformNum.appendChild(PlatformNum_title) Platform.appendChild(PlatformNum) Module = doc.createElement('Module') # 创建Platform第一节点Module Module.setAttribute("description", "模块编号") Module_title = doc.createTextNode("M1") Module.appendChild(Module_title) Platform.appendChild(Module) datas = doc.createElement('datas') # 创建root下第一节点datas root.appendChild(datas) for ip in self.DATA_JSON["hosts"]: data = doc.createElement('data') data.setAttribute("ciNum", "CI201702230001(被监控服务器的ID,预留字段)") data.setAttribute("datetime", self.DATA_JSON["datetime"]) data.setAttribute("host", self.DATA_JSON["hosts"][ip]["name"]) data.setAttribute("ip", self.DATA_JSON["hosts"][ip]["ip"]) data.setAttribute("itemName", "CPU idle time") # CPU空闲时间 data.setAttribute("itemValue", self.DATA_JSON["hosts"][ip]["CPU_utilization_percentage"]) data_title = doc.createTextNode("") # 为了解决自闭合标签。 data.appendChild(data_title) # 为了解决自闭合标签。 datas.appendChild(data) data = doc.createElement('data') data.setAttribute("ciNum", "CI201702230001(被监控服务器的ID,预留字段)") data.setAttribute("datetime", self.DATA_JSON["datetime"]) data.setAttribute("host", self.DATA_JSON["hosts"][ip]["name"]) data.setAttribute("ip", self.DATA_JSON["hosts"][ip]["ip"]) data.setAttribute("itemName", "Total memory") # 总内存 data.setAttribute("itemValue", self.DATA_JSON["hosts"][ip]["Physical_memory_TOTAL"]) # 总内存 data_title = doc.createTextNode("") # 为了解决自闭合标签。 data.appendChild(data_title) # 为了解决自闭合标签。 datas.appendChild(data) data = doc.createElement('data') data.setAttribute("ciNum", "CI201702230001(被监控服务器的ID,预留字段)") data.setAttribute("datetime", self.DATA_JSON["datetime"]) data.setAttribute("host", self.DATA_JSON["hosts"][ip]["name"]) data.setAttribute("ip", self.DATA_JSON["hosts"][ip]["ip"]) data.setAttribute("itemName", "Free real memory") # 空闲内存 data.setAttribute("itemValue", self.DATA_JSON["hosts"][ip]["Physical_memory_FREE"]) # 空闲 data_title = doc.createTextNode("") # 为了解决自闭合标签。 data.appendChild(data_title) # 为了解决自闭合标签。 datas.appendChild(data) return doc.toprettyxml(indent='') def makeXML(self): f = open(self._filename+'.xml', 'w', encoding="UTF-8") f.write(self.DATA_XML) f.close()
调试代码:(调试代码和代码在同级目录下)
# -*- coding: utf-8 -*- import readFileToXML as RFTX # 实例化 TEST = RFTX.readFileToXML("zmonitor.2017-04-06-14_28") #TEST = RFTX.readFileToXML("C:\\Users\\Asktao\\PycharmProjects\\CSV_to_XML\\zmonitor.2017-04-06-14_28") # 在当前目录下生成XML文件 TEST.makeXML() # 打印JSON格式数据 print("JSON格式:%s" % TEST.DATA_JSON) # 打印XML格式数据 print("XML格式:\n %s " % TEST.DATA_XML) print(TEST._path) # 路径 print(TEST._filename) # 文件名
后记:
领导4月7号周五上午布置任务,要求月底之前交。结果开开心心干了半天就看小说了。周六日开开心心睡大觉。结果今天上午10点就说这两天就要。哎,亏着勤劳,一上午就弄完了。要不然就被领导坑了。大家共勉吧,勤劳共勉。
领导改需求了,要在linux当脚本跑,于是改了一下调用方式。
相关文章推荐
- 使用Python将TXT文本内容读取后生成指定XML格式的文件
- python读取 .txt 文本内容以及将程序执行结果写入txt文件
- python 使用-读取文件、替换文件中指定的内容
- 使用python读取txt文件的内容,并删除重复的行数
- 使用python读取指定目录下的源代码并将内容复制到同一新文件中
- Java中读取txt文本中内容+目录文件复制到指定目录
- 使用python读取txt文件的内容,并删除重复的行数方法
- Java基础之IO流,按指定行号范围读取文本文件内容,带行业、带缓冲
- 使用Robot从txt文件中读取不同行的内容并显示
- C#生成PDF文档,读取TXT文件内容
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法
- python 读取文本文件内容转化为python的list
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- python读取指定文件指定行数内容
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例 .
- 使用Robot从txt文件中读取不同行的内容并显示(续)
- 读取TXT文件内容,生成Excel文件
- CMD文件中用FOR命令读取文本文件内容到变量,以及和PsExec搭配使用的方法和例子
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例