C# HTML解析工具HtmlAgilityPack使用实例(一)
2016-09-30 16:32
633 查看
一、生成HTML字符串
//生成DOM字符串结构HtmlNode container = HtmlNode.CreateNode("<div />");
HtmlNode title = HtmlNode.CreateNode("<h3 />");
title.InnerHtml = "张三丰";
HtmlNode link = HtmlNode.CreateNode("<a />");
link.InnerHtml = "点击进入";
link.SetAttributeValue("href", "http://wwww.gongjuji.net");
container.AppendChild(title).AppendChild(link);
Console.WriteLine(container.OuterHtml);
二、解析HTML字符串或本地html文件
//解析html 字符串或者本地html文件HtmlDocument doc = new HtmlDocument();
string html = "<div id=\"demo\"><span style=\"color: red; \"><h1>Hello</h1> </span></div>";
doc.LoadHtml(html);
HtmlNode demo = doc.GetElementbyId("demo");
Console.WriteLine(demo.InnerHtml);
//注:InnerText中会有换行或空格等,需要特殊处理
Console.WriteLine(demo.InnerText);
Console.WriteLine(demo.InnerText.Length);
三、解析处理结合XPath使用更加方便
XPath简明介绍XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
下面列出了最有用的路径表达式:
nodename:选取此节点的所有子节点。
/:从根节点选取。
//:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.:选取当前节点。
..:选取当前节点的父节点。
例如有下面一段XML:
<?xml version="1.0" encoding="utf-8"?>
<Articles>
<Article>
<Title>在ASP.NET中使用Highcharts js图表</title>
<Url>http://zhoufoxcn.blog.51cto.com/792419/537324</Url>
<CreateAt type="en">2011-04-07</price>
</Article>
<Article>
<Title lang="eng">Log4Net使用详解(续)</title>
<Url>http://blog.csdn.net/zhoufoxcn/archive/2010/11/23/6029021.aspx</Url>
<CreateAt type="zh-cn">2010年11月23日</price>
</Article>
<Article>
<Title>J2ME开发的一般步骤</title>
<Url>http://blog.csdn.net/zhoufoxcn/archive/2011/06/12/6540223.aspx</Url>
<CreateAt type="zh-cn">2011年06月12日</price>
</Article>
<Article>
<Title lang="eng">PowerDesign高级应用</title>
<Url>http://zhoufoxcn.blog.51cto.com/792419/166415</Url>
<CreateAt type="zh-cn">2007-09-08</price>
</Article>
</Articles>
针对上面的XML文件,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
/Articles/Article[1]:选取属于Articles子元素的第一个Article元素。
/Articles/Article[last()]:选取属于Articles子元素的最后一个Article元素。
/Articles/Article[last()-1]:选取属于Articles子元素的倒数第二个Article元素。
/Articles/Article[position()<3]:选取最前面的两个属于 bookstore 元素的子元素的Article元素。
//title[@lang]:选取所有拥有名为lang的属性的title元素。
//CreateAt[@type='zh-cn']:选取所有CreateAt元素,且这些元素拥有值为zh-cn的type属性。
/Articles/Article[Order>2]:选取Articles元素的所有Article元素,且其中的Order元素的值须大于2。
/Articles/Article[Order<3]/Title:选取Articles元素中的Article元素的所有Title元素,且其中的Order元素的值须小于3。
HTML解析工具HtmlAgilityPack使用简介
相关文章推荐
- C# HTML解析工具HtmlAgilityPack使用实例(二)--Web页面
- C# HTML解析工具HtmlAgilityPack使用简介
- 【原创】C# 多线程采集工具(使用 HtmlAgilityPack 工具)
- C# HTML解析工具HtmlAgilityPack XPath 模糊查询not()函数和contains()函数
- c#使用htmlagilitypack解析html格式字符串
- 使用C#和HtmlAgilityPack解析HTML
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- C#使用HtmlAgilityPack爬虫实例
- C#中使用HtmlAgilityPack对html进行解析
- C#:使用HtmlAgilityPack解析Html
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- C#解析HTML神器 Html Agility Pack
- 黄聪:C#类似Jquery的html解析类HtmlAgilityPack基础类介绍及运用
- 黄聪:HtmlAgilityPack,C#实用的HTML解析类简介
- C# HTML解析利器HtmlAgilityPack
- 黄聪:HtmlAgilityPack,C#实用的HTML解析类简介
- C#解析html源码的框架类HtmlAgilityPack
- HTML解析组件HtmlAgilityPack使用
- 【转】C#类似Jquery的html解析类HtmlAgilityPack基础类介绍及运用
- 使用HtmlAgilityPack解析html