您的位置：首页 > 其它

XML文档的DOM和SAX解析方式详解

2013-11-05 16:44 489 查看

1.1 Tip：XML解析技术概述

XML解析方式分为两种：dom和sax

dom：(Document Object Model, 即文档对象模型) 是 W3C 组织推荐的处理 XML 的一种方式。

sax： (Simple API for XML) 不是官方标准，但它是 XML 社区事实上的标准，几乎所有的 XML 解析器都支持它。

XML解析器

Crimson、Xerces 、Aelfred2

XML解析开发包

Jaxp、Jdom、dom4j

1.2 Tip：JAXP

JAXP 开发包是J2SE的一部分，它由javax.xml、org.w3c.dom 、org.xml.sax 包及其子包组成

在 javax.xml.parsers 包中，定义了几个工厂类，程序员调用这些工厂类，可以得到对xml文档进行解析的 DOM 或 SAX 的解析器对象。

1.3 Tip：使用JAXP进行DOM解析

javax.xml.parsers 包中的DocumentBuilderFactory用于创建DOM模式的解析器对象， DocumentBuilderFactory是一个抽象工厂类，它不能直接实例化，但该类提供了一个newInstance方法，这个方法会根据本地平台默认安装的解析器，自动创建一个工厂的对象并返回。

调用DocumentBuilderFactory.newInstance() 方法得到创建 DOM 解析器的工厂。

调用工厂对象的newDocumentBuilder方法得到 DOM 解析器对象。

调用 DOM 解析器对象的 parse() 方法解析 XML 文档，得到代表整个文档的 Document 对象，进行可以利用DOM特性对整个XML文档进行操作了。

//1.创建工厂
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
//2。得到dom解析器
DocumentBuilder builder = factory.newDocumentBuilder();
//3。解析xml文档，得到代表文档的document
Document document = builder.parse("src/book.xml");

1.1 Tip：更新XML文档

javax.xml.transform包中的Transformer类用于把代表XML文件的Document对象转换为某种格式后进行输出，例如把xml文件应用样式表后转成一个html文档。利用这个对象，当然也可以把Document对象又重新写入到一个XML文件中。

Transformer类通过transform方法完成转换操作，该方法接收一个源和一个目的地。我们可以通过：

javax.xml.transform.dom.DOMSource类来关联要转换的document对象，

用javax.xml.transform.stream.StreamResult对象来表示数据的目的地。

Transformer对象通过TransformerFactory获得。

public void writeToFile(){
Transformer transformer = TransformerFactory.newInstance().newTransformer();
DOMSource source = new DOMSource(document);
FileOutputStream outstream =new FileOutputStream(new File("src/outbook3.xml"));
StreamResult  reslut = new StreamResult(outstream);
transformer.transform(source, reslut);
outstream.close();
}

<?xml version="1.0" encoding="UTF-8"?>
<书架>
<书>
<书名 name="dream">做最好的自己</书名>
<作者>李开复</作者>
<售价>39</售价>
</书>
<书>
<书名>退步集</书名>
<作者>陈丹青</作者>
<售价>35</售价>
</书>
</书架>

要求：1.读取<书名>退步集</书名>

2. 得到文档中所有标签

3. 得到文档中标签属性<书名 name="dream">做最好的自己</书名>

4，创建节点 <售价>30</售价>

5. 向文档中指定位置上添加节点 <售价>30</售价>

6. 向文档节点添加属性 <售价>30</售价>

7. 删除 <售价>30</售价>

8. 更新售价

！！！ (更新完后记得写入源文档)

// 1读取<书名>退步集</书名>
NodeList list=document.getElementsByTagName("书名");
Node node = list.item(1);
String content = node.getTextContent();
System.out.println(content);//退步集

// 2得到文档中所有标签
Node root=document.getElementsByTagName("书架").item(0);
list(root);

private void list(Node node) {
Node child;
if (node instanceof Element)
System.out.println(node.getNodeName());
NodeList nodelist = node.getChildNodes();
for (int i=0;i<nodelist.getLength();i++)
{
Child = nodelist.item(i);
list(child);
}
}

// 3. 得到文档中标签属性<书名 name="dream">做最好的自己</书名>
NodeList list=document.getElementsByTagName("书名");
Node node=list.item(0);
if(node.hasAttributes()){
NamedNodeMap nodemap=node.getAttributes();
for(int i=0;i<nodemap.getLength();i++)
{
Node nd=nodemap.item(i);
String strname=nd.getNodeName();
String strval=nd.getNodeValue();
System.out.println(strname+":"+strval);//name:dddd

}
}
Element node2=(Element)list.item(0);
String str3=node2.getAttribute("name");
System.out.println("__"+str3);//__dream
}

4. //创建节点<售价>30</售价>
Element price=document.createElement("售价");
price.setTextContent("30元");
//把创建的节点放到第一本书上
document.getElementsByTagName("书").item(0).appendChild(price);
//把更新后的内容写回文档
writeToFile();
//  5.向文档中指定位置上添加节点  <售价>30</售价>

Element price=document.createElement("售价");
price.setTextContent("30元");
//得到参考节点
Element refNode=(Element)document.getElementsByTagName("售价").item(0);
//得到要挂载的节点
Element book=(Element)document.getElementsByTagName("书").item(0);
//把创建的节点添加进第一本书上
document.getElementsByTagName("书").item(0).appendChild(price);
// 往book节点指定位置插入售价节点
book.insertBefore(price, refNode);
//把更新后的内容写回文档
writeToFile();

//  6. 向文档节点 添加属性 <售价>30</售价>
Element refNode=(Element)document.getElementsByTagName("售价").item(0);
refNode.setAttribute("addAtrr","new value");
//把更新后的内容写回文档
writeToFile();

//  7. 删除 <售价>30</售价>
//得到要删除的节点
Element refNode=(Element)document.getElementsByTagName("售价").item(0);
refNode.getParentNode().removeChild(refNode);
//把更新后的内容写回文档
writeToFile();

//  8. 更新 售价
Element refNode=(Element)document.getElementsByTagName("售价").item(0);
refNode.setTextContent("1000");
//把更新后的内容写回文档
writeToFile();

1.1 Tip：SAX解析

在使用 DOM 解析 XML 文档时，需要读取整个 XML 文档，在内存中构架代表整个 DOM 树的Doucment对象，从而再对XML文档进行操作。此种情况下，如果 XML 文档特别大，就会消耗计算机的大量内存，并且容易导致内存溢出。

SAX解析允许在读取文档的时候，即对文档进行处理，而不必等到整个文档装载完才会文档进行操作。

SAX采用事件处理的方式解析XML文件，利用 SAX 解析 XML 文档，涉及两个部分：解析器和事件处理器：

解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去解析某个XML文档。

解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个组成部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。

事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松地得到sax解析器解析到的数据，从而可以决定如何对数据进行处理。

阅读ContentHandler API文档，常用方法：startElement、endElement、characters

1.1 ：SAX方式解析XML文档

1.使用SAXParserFactory创建SAX解析工厂

SAXParserFactoryspf = SAXParserFactory.newInstance();

2.通过SAX解析工厂得到解析器对象

SAXParser sp =spf.newSAXParser();

3.通过解析器对象得到一个XML的读取器

XMLReaderxmlReader = sp.getXMLReader();

4.设置读取器的事件处理器

xmlReader.setContentHandler(newBookParserHandler());

5.解析xml文件

xmlReader.parse("book.xml");

要求：1. 得到xml文档所有内容

2. 获取指定标签作者的值

3. 把每一本书封装到一个book对象，并把book对象存入一个列表中

（注意断点调试的重要性。）

//得到xml文档所有内容
class ListHandler extends defaultHandler{

@Override
public void startElement(String uri, String localName, String qName,
Attributes atts) throws SAXException {

System.out.println("<"+qName+">");
for (int i=0;atts!=null && i<atts.getLength();i++){
String attName=atts.getQName(i);
String attValue=atts.getValue(i);
System.out.println(attName+"="+attValue);
}
}
@Override
public void characters(char[] ch, int start, int length)
throws SAXException {
System.out.println(new String(ch,start,length));
}
@Override
public void endElement(String uri, String localName, String qName)
throws SAXException {
System.out.println("</"+qName+">");
}
}

//获取指定标签  作者 的值
class TagValueHandler extends DefaultHandler{
private String currentTag;//记住当前解析器得到的是什么标签
private int needNumber=2;//记住想获取第几个作者标签的值
private int currentNumber;//当前解析的是第几个
@Override
public void startElement(String uri, String localName, String qName,
Attributes attributes) throws SAXException {
currentTag=qName;
if("作者".equals(currentTag))
currentNumber++;
}
@Override
public void characters(char[] ch, int start, int length)	throws SAXException {
if("作者".equals(currentTag)&& currentNumber==needNumber){
System.out.println(new String(ch,start,length));
}
}
@Override
public void endElement(String uri, String localName, String qName)
throws SAXException {
currentTag=null;
}
}

//把每一本书封装到一个book对象，并把book对象存入一个列表中
class BeanListHandler extends DefaultHandler{
private List<Book> list=new ArrayList<Book>();
public List<Book> getList() {
return list;
}

private String currentTag;
private Book book;

@Override
//判断是书后，创建书的对象
public void startElement(String uri, String localName, String qName,
Attributes attributes) throws SAXException {
currentTag=qName;
if("书".equals(currentTag)){
book=new Book();
}
}

@Override
//循环往书中添加各标签
public void characters(char[] ch, int start, int length)		throws SAXException {
if("书名".equals(currentTag)){
book.setName(new String(ch,start,length));
}
if("作者".equals(currentTag)){
book.setAuthor(new String(ch,start,length));
}
if("售价".equals(currentTag)){
book.setPrice(new String(ch,start,length));
}
}

//将书对象添加到列表中，并清书对象，以便下一次使用，
@Override
public void endElement(String uri, String localName, String qName)	throws SAXException {
if(qName.equals("书")){
list.add(book);
book=null;
}
currentTag=null;
/*这句有必要，否则会出现空指针异常，因为每一次在读到结束标签后，再次读取的是结束标签后的空白处，由于currentTag在characters（）中通过判断后，满足条件，所以会将空白部分的值赋给currentTag，直到最后产生空指针异常*/
}
}

1.1 Tip：DOM4J解析XML文档

Dom4j是一个简单、灵活的开放源代码的库。Dom4j是由早期开发JDOM的人分离出来而后独立开发的。与JDOM不同的是，dom4j使用接口和抽象基类，虽然Dom4j的API相对要复杂一些，但它提供了比JDOM更好的灵活性。

Dom4j是一个非常优秀的Java XML API，具有性能优异、功能强大和极易使用的特点。

1.1 Tip：Document对象

DOM4j中，获得Document对象的方式有三种：

1.读取XML文件,获得document对象

SAXReader reader = newSAXReader();

Document document = reader.read(new File("input.xml"));

2.解析XML形式的文本,得到document对象.

String text = "<members></members>";

Document document = DocumentHelper.parseText(text);

3.主动创建document对象.

Document document = DocumentHelper.createDocument();

//创建根节点

Element root = document.addElement("members");

1.1 Tip：节点对象

1.获取文档的根节点.

Element root = document.getRootElement();

2.取得某个节点的子节点.

Elementelement=node.element(“书名");

3.取得节点的文字

String text=node.getText();

4.取得某节点下所有名为“member”的子节点，并进行遍历.

List nodes = rootElm.elements("member");

for (Iterator it = nodes.iterator();it.hasNext();) {

Element elm =(Element) it.next();

// do something

}

5.对某节点下的所有子节点进行遍历.

for(Iteratorit=root.elementIterator();it.hasNext();){

Elementelement = (Element) it.next();

// dosomething

}

6.在某节点下添加子节点.

Element ageElm =newMemberElm.addElement("age");

7.设置节点文字.

element.setText("29");

8.删除某节点.

//childElm是待删除的节点,parentElm是其父节点

parentElm.remove(childElm);

9.添加一个CDATA节点.

Element contentElm = infoElm.addElement("content");

contentElm.addCDATA(diary.getContent());

1.1 Tip：节点对象属性　

1.取得某节点下的某属性

Elementroot=document.getRootElement();

//属性名name

Attributeattribute=root.attribute("size");

2.取得属性的文字

Stringtext=attribute.getText();

3.删除某属性

Attribute attribute=root.attribute("size");

root.remove(attribute);

3.遍历某节点的所有属性

Elementroot=document.getRootElement();

for(Iteratorit=root.attributeIterator();it.hasNext();){

Attributeattribute = (Attribute) it.next();

Stringtext=attribute.getText();

System.out.println(text);

}

4.设置某节点的属性和文字.

newMemberElm.addAttribute("name", "sitinspring");

5.设置属性的文字

Attribute attribute=root.attribute("name");

attribute.setText("sitinspring");

1.1 Tip：将文档写入XML文件

1.文档中全为英文,不设置编码,直接写入的形式.

XMLWriter writer = newXMLWriter(new FileWriter("output.xml"));

writer.write(document);

writer.close();

2.文档中含有中文,设置编码格式写入的形式.

OutputFormat format = OutputFormat.createPrettyPrint();

// 指定XML编码
(和源文件相同的码表)

format.setEncoding("GBK");

XMLWriter writer = newXMLWriter(newFileWriter("output.xml"),format);

//XMLWriter writer = new XMLWriter(new OutputStreamWriter(newFileOutputStream("src/book.xml"), "GBK"),format);

writer.write(document);

writer.close();

//当new字符流时，因为写入的是字节，所以会去查设定的码表，但是new

//字符流时，因为交给FileWriter去查，所以为本地默认的GB2312码表

XMLWriterwriter =new XMLWriter(new FileOutputStream("src/book.xml"),format);

//XMLWriter writer = newXMLWriter(newFileWriter("src/book.xml"),format);

1.1 Tip：Dom4j在指定位置插入节点

1.得到插入位置的节点列表（list）

2.调用list.add(index,elemnent)，由index决定element的插入位置。

Element元素可以通过DocumentHelper对象得到。

示例代码：

Element aaa =DocumentHelper.createElement("aaa");

aaa.setText("aaa");

List list = root.element("书").elements();

list.add(1, aaa);

//更新document

1.2 Tip：字符串与XML的转换

1.将字符串转化为XML

String text = "<members><member>sitinspring</member></members>";

Document document = DocumentHelper.parseText(text);

2.将文档或节点的XML转化为字符串.

SAXReader reader = new SAXReader();

Document document = reader.read(newFile("input.xml"));

Element root=document.getRootElement();

String docXmlText=document.asXML();

String rootXmlText=root.asXML();

Element memberElm=root.element("member");

String memberXmlText=memberElm.asXML();

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航