使用HAP抓取HTML网页内容实例
2013-10-17 15:31
423 查看
前言
最近有个任务需要把Functx XQuery Functions(http://www.xqueryfunctions.com/)上面所有的functx相关的function defintion全部down下来,存到本地文件中,这是个简单的活儿,却是个枯燥的活儿。鉴于本人对于枯燥乏味事情的极端厌恶,我准备编程来解析这些网页。这篇帖子就准备记录解决这个任务的过程。正文
1、简单的搜索了下我找到了HTML Agility Pack(http://htmlagilitypack.codeplex.com/),这边有一篇中文繁体的tutorial:http://msdn.microsoft.com/zh-tw/ee787055.aspx;2、我刚开始学习使用HAP的时候,有个错误的理解认为可以根据Chrome的“审查元素”功能来找到对应node的xpath,然后用doc.DocumentNode.SelectNodes方法来获取到相应的node,事实证明这样是不行的,关于为什么,这边有篇很好的讨论:http://stackoverflow.com/questions/15826875/html-agility-pack-using-xpath-to-get-a-single-node-object-reference-not-set;
3、好吧,简单来说这个任务我搞定了,详细的源文件请见:https://github.com/edychang/mytoolkits/blob/master/applications/xquery_function_parser/FunctxParser/Program.cs
4、话说C#真的是相当NB啊,不看任何书的前提下两天就能搞定一个C#程序说明这个语言学习曲线很平滑啊。
5、使用HAP的关键在于XPath的运用。
相关文章推荐
- c#调用COM组件
- 通过Mootools 1.2来操纵HTML DOM元素
- WEB标准网页布局中尽量不要使用的HTML标签
- c#中虚函数的相关使用方法
- Flash 与 html 的一些实用技巧
- html工作中表格<tbody>标签的使用技巧
- HTML 向 XHTML1.0 兼容性指导
- 浅析C# web访问mysql数据库-整理归纳总结
- 没有文件大小限制并免费的PDF到HTML转换工具
- C#实现的阴历阳历互相转化类实例
- C# 的关键字详细介绍
- c# 获得局域网主机列表实例
- 关于C# Math 处理奇进偶不进的实现代码
- c# 随机函数的使用详解
- c#之圆形无标题栏椭圆窗体的实现详解
- C#页面之间跳转功能的小结
- 浅析C# 基础语法的使用
- C#中将字符串转换为整型的三种解决方法总结
- 深入c# GDI+简单绘图的具体操作步骤(一)
- C#中英文混合字符串截取函数