python使用ElementTree解析XML文件
2017-04-06 14:58
435 查看
将XML网页保存到本地
要加载XML文件,首先应该将网页上的信息提取出来,保存为本地XML文件。抓取网页信息可以使用python的urllib模块。方法是:先将网页打开,并都去上面的内容,然后在本地创建文件来,以写模式打开该文件,将网页信息写入文件中,保存在本地。代码如下:
解析XML文件
python有许多可以用来解析XML文件的函数,在这里介绍ElementTree(简称ET).它提供了轻量级的python式的API。实现逻辑简单,解析效率高。利用ET解析XML文件的方法是:先找出父级标签,然后再一级一级循环找出所需要的子标签。代码入下:
在上述代码中,child_of_root[7]表示在该级标签中的第八个子标签,在for child2 in child1中是遍历child1的所有子标签,打印出子标签的名称、属性和文本。这样就可以将XML文件解析完成,得到我们想要的信息。
要加载XML文件,首先应该将网页上的信息提取出来,保存为本地XML文件。抓取网页信息可以使用python的urllib模块。方法是:先将网页打开,并都去上面的内容,然后在本地创建文件来,以写模式打开该文件,将网页信息写入文件中,保存在本地。代码如下:
from urllib import urlopen url = "http://********/**" resp = urlopen(url).read() f = open('文件保存路径', 'w') f.write(resp) f.close()
解析XML文件
python有许多可以用来解析XML文件的函数,在这里介绍ElementTree(简称ET).它提供了轻量级的python式的API。实现逻辑简单,解析效率高。利用ET解析XML文件的方法是:先找出父级标签,然后再一级一级循环找出所需要的子标签。代码入下:
import xml.etree.cElementTree as ET tree = ET.parse("***.xml") #加载xml文件 root = tree.getroot() #得到第二级标签 for child_of_root in root[1]:#root[1]为第二级标签中的第二个子标签 for child1 in child_of_root[7]: #原理同上 for child2 in child1: print child2.tag, child2.attrib, child2.text for child3 in child_of_root[8]: for child4 in child3: print child4.tag, child4.attrib, child4.text
在上述代码中,child_of_root[7]表示在该级标签中的第八个子标签,在for child2 in child1中是遍历child1的所有子标签,打印出子标签的名称、属性和文本。这样就可以将XML文件解析完成,得到我们想要的信息。
相关文章推荐
- Python中使用ElementTree对XML文件进行解析
- Python中使用ElementTree解析XML示例
- 使用python解析Wordpress导出的xml文件
- Python之使用ElementTree解析xml文件
- ZH奶酪:Python使用ElementTree解析XML【译】
- Python基础(十一) 使用xml.dom 创建XML文件与解析
- Python_使用ElementTree解析xml文件
- Python 使用ElementTree解析XML
- Python中使用ElementTree解析XML文件
- Python3.5环境下使用generateDS解析xml文件生成C++头文件的方法
- Python-elementTree方法解析xml文件-01
- Python中使用ElementTree解析XML示例
- 使用python3.4解析xml文件(sax、dom、etree)
- python 使用ElementTree解析XML
- Python使用ElementTree解析XML
- Python使用untangle模块对XML文件进行解析
- VC轻松解析XML文件--CMarkup使用方法(解决解析中文字符出现乱码问题)
- 使用MSXML解析XML文件
- 使用MSXML解析XML文件
- 使用python解析火狐的书签备份文件