将Html文档整理为规范XML文档
2014-06-23 22:38
337 查看
有多种方式可以在.NET 平台进行HTML文件解析、数据提取,其中最简单、稳妥的办法是先使用工具将Html文档整理成XML文档,再通过XML Dom模型或XPath灵活地进行数据处理。SGML便是一个Html文档整理工具类库:
Microsoft的XML大师Chris Lovett专门开发了一个SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至将它们转换成一个格式规范的结构。 SgmlReader派生于XmlReader,这就是说,你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文 件。
这是一段示例代码:
public static XmlDocument ConvertHtmlToXml(string html)
using (SgmlReader sgmlReader = new SgmlReader()) {
sgmlReader.DocType = "HTML";
sgmlReader.InputStream = new StringReader(html);
using (StringWriter stringWriter = new StringWriter()){
using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))
{
while (!sgmlReader.EOF) {
xmlWriter.WriteNode(sgmlReader, true);
}
}
}
}
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml(stringWriter.ToString());
return xmlDoc;
主页:http://code.msdn.microsoft.com/SgmlReader
语言:英文 授权形式:开源
相关网址:
http://msdn.microsoft.com/en-us/library/aa302299.aspx
下载页(SourceForge) .zip]SgmlReader 1.8 MSDN代码库
Microsoft的XML大师Chris Lovett专门开发了一个SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至将它们转换成一个格式规范的结构。 SgmlReader派生于XmlReader,这就是说,你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文 件。
这是一段示例代码:
public static XmlDocument ConvertHtmlToXml(string html)
using (SgmlReader sgmlReader = new SgmlReader()) {
sgmlReader.DocType = "HTML";
sgmlReader.InputStream = new StringReader(html);
using (StringWriter stringWriter = new StringWriter()){
using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))
{
while (!sgmlReader.EOF) {
xmlWriter.WriteNode(sgmlReader, true);
}
}
}
}
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml(stringWriter.ToString());
return xmlDoc;
主页:http://code.msdn.microsoft.com/SgmlReader
语言:英文 授权形式:开源
相关网址:
http://msdn.microsoft.com/en-us/library/aa302299.aspx
下载页(SourceForge) .zip]SgmlReader 1.8 MSDN代码库
相关文章推荐
- 将Html文档整理为规范XML文档
- 用 System.Xml 读写XML 整理文档
- XML文档规范
- lucene 索引非txt文档 (pdf word rtf html xml)
- xml笔记(二)——xml文档的规范
- 用 System.Xml 读写XML 整理文档
- 使用XSL将XML文档中的CDATA注释输出为HTML文本
- 用 System.Xml 读写XML 整理文档(转)
- 用 System.Xml 读写XML 整理文档
- XML序列化与反序列化 整理文档
- [整理文档] XML for Analysis结构文档
- XML序列化与反序列化 整理文档
- 用 System.Xml 读写XML 整理文档
- XML序列化与反序列化 整理文档(转)
- java解析zip文档,解决解析zip中解析xml和html文档流断的方法
- 用 System.Xml 读写XML 整理文档
- XML序列化与反序列化 整理文档 - Kevin Cheng
- 为什么XML文档的格式是否规范如此重要呢?为何W3C规定XML处理器不应尝试修复不规范的文档
- XML文档学习以及规范编写
- html网页中使用javascript脚本调用xml文档实例