您的位置:首页 > Web前端 > HTML

使用HAP抓取HTML网页内容实例

2013-10-17 15:31 423 查看

前言

最近有个任务需要把Functx XQuery Functions(http://www.xqueryfunctions.com/)上面所有的functx相关的function defintion全部down下来,存到本地文件中,这是个简单的活儿,却是个枯燥的活儿。鉴于本人对于枯燥乏味事情的极端厌恶,我准备编程来解析这些网页。这篇帖子就准备记录解决这个任务的过程。

正文

1、简单的搜索了下我找到了HTML Agility Pack(http://htmlagilitypack.codeplex.com/),这边有一篇中文繁体的tutorial:http://msdn.microsoft.com/zh-tw/ee787055.aspx

2、我刚开始学习使用HAP的时候,有个错误的理解认为可以根据Chrome的“审查元素”功能来找到对应node的xpath,然后用doc.DocumentNode.SelectNodes方法来获取到相应的node,事实证明这样是不行的,关于为什么,这边有篇很好的讨论:http://stackoverflow.com/questions/15826875/html-agility-pack-using-xpath-to-get-a-single-node-object-reference-not-set

3、好吧,简单来说这个任务我搞定了,详细的源文件请见:https://github.com/edychang/mytoolkits/blob/master/applications/xquery_function_parser/FunctxParser/Program.cs

4、话说C#真的是相当NB啊,不看任何书的前提下两天就能搞定一个C#程序说明这个语言学习曲线很平滑啊。

5、使用HAP的关键在于XPath的运用。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  C# HAP html XQuery