C#HTML解析利器HtmlAgilityPack
2017-07-17 20:40
796 查看
HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手。目前最新版本为1.4.6,下载地址如下:http://htmlagilitypack.codeplex.com/ 目前稳定的版本是1.4.6,上一次更新还是2012年,所以很稳定,基本功能全面,也没必要更新了。
提到HtmlAgilityPack,就必须要介绍一个辅助工具,不知道其他人在使用的时候,是如何分析页面结构的。反正我是使用官方提供的一个叫做HAPExplorer的工具。非常有用。下面我们在使用的时候会介绍如何使用。
还是以辽宁省为例:http://www.tianqihoubao.com/lishi/ln.htm ,打开页面,右键获取网页源代码后,粘贴到 HAPExplorer 中,也可以直接在HAPExplorer 中打开链接,如下面的动画演示:
我们可以看到,右侧的XPath地址,div结束后,下面都是dl标签,就是我们要采集的行了。下面我们用代码来获取上述结构。先看看获取页面源代码的代码:
提到HtmlAgilityPack,就必须要介绍一个辅助工具,不知道其他人在使用的时候,是如何分析页面结构的。反正我是使用官方提供的一个叫做HAPExplorer的工具。非常有用。下面我们在使用的时候会介绍如何使用。
还是以辽宁省为例:http://www.tianqihoubao.com/lishi/ln.htm ,打开页面,右键获取网页源代码后,粘贴到 HAPExplorer 中,也可以直接在HAPExplorer 中打开链接,如下面的动画演示:
我们可以看到,右侧的XPath地址,div结束后,下面都是dl标签,就是我们要采集的行了。下面我们用代码来获取上述结构。先看看获取页面源代码的代码:
相关文章推荐
- c#蜘蛛程序之HTML解析利器HtmlAgilityPack
- c#蜘蛛程序之HTML解析利器HtmlAgilityPack
- Html Agility Pack (HAP):c# HTML 解析利器
- C# 网络爬虫利器之Html Agility Pack如何快速实现解析Html
- C#解析HTML利器-Html Agility Pack
- c#蜘蛛程序之HTML解析利器HtmlAgilityPack
- C# HTML解析利器HtmlAgilityPack
- HTML解析利器HtmlAgilityPack
- 黄聪:HtmlAgilityPack,C#实用的HTML解析类简介
- HTML解析利器HtmlAgilityPack
- 黄聪:HtmlAgilityPack,C#实用的HTML解析类 ---- HtmlNode类
- c#HtmlAgilityPack解析html
- C# HTML解析工具HtmlAgilityPack XPath 模糊查询not()函数和contains()函数
- HTML解析利器HtmlAgilityPack - 小y
- HTML解析利器HtmlAgilityPack
- 黄聪:HtmlAgilityPack,C#实用的HTML解析类 ---- HtmlNode类
- HTML解析利器HtmlAgilityPack
- C# HTML解析工具HtmlAgilityPack使用简介
- .Net Core HTML解析利器之HtmlAgilityPack
- C#网页解析获得HTML中JS变量,一个是浏览器交互(EvaluateScriptAsync),一个是HtmlAgilityPack解析