Asp.net解析HTML并利用XPATH分析提取内容
2011-05-24 15:25
591 查看
HTML解析器有很多种,最常用的是HtmlAgilityPack和SgmlReader(http://sourceforge.net/projects/dekiwiki/files/SgmlReader/)。
这里使用的是HtmlAgilityPack:
下载地址:http://htmlagilitypack.codeplex.com
同时官网提供了一个自动生成xpath路径的工具HAP Explorer。
关于XPATH表达式以及相关教程参见:XPath表达式精选[更新中...]
获取HTML的方式有很多种:
1.通过HttpWebRequest类可实现模拟登录并获取页面信息
2.用第三方控件模拟登录,参见:正在做简历搬家功能,分享一下研究过程
使用方法:
首先引用HtmlAgilityPack的DLL文件 using HtmlAgilityPack;
根据XPath提取内容的函数:
这里使用的是HtmlAgilityPack:
下载地址:http://htmlagilitypack.codeplex.com
同时官网提供了一个自动生成xpath路径的工具HAP Explorer。
关于XPATH表达式以及相关教程参见:XPath表达式精选[更新中...]
获取HTML的方式有很多种:
1.通过HttpWebRequest类可实现模拟登录并获取页面信息
2.用第三方控件模拟登录,参见:正在做简历搬家功能,分享一下研究过程
使用方法:
首先引用HtmlAgilityPack的DLL文件 using HtmlAgilityPack;
根据XPath提取内容的函数:
/// <summary> /// 根据XPATH获取筛选的字符串 /// </summary> /// <param name="content">需要提取HTML的内容</param> /// <param name="xpath">XPath表达式</param> /// <param name="separ">分隔符</param> /// <returns>提取后的内容</returns> public static string GetStrByXPath(string content, string xpath, string separ) { HtmlDocument doc1 = new HtmlDocument(); doc1.LoadHtml(content); HtmlNodeCollection repeatNodes = doc1.DocumentNode.SelectNodes(xpath); string text = ""; //循环节点 foreach (HtmlNode node in repeatNodes) { text += node.InnerText + separ; } return text; }
相关文章推荐
- Asp.net解析HTML并利用XPATH分析提取内容
- Asp.Net(C#)利用XPath解析XML文档示例
- asp.net利用正则在HTML中提取图片路径
- Asp.Net(C#)利用XPath解析XML文档示例
- asp.net利用正则在HTML中提取图片路径
- Asp.Net(C#)利用XPath解析XML文档示例
- ASP.NET 中如何对生成的 HTML 内容流进行控制?
- ASP.NET 中如何对生成的 HTML 内容流进行控制
- ASP.NET压缩输出的HTML内容
- asp.net 获取HTML meta标记中的内容
- ASP.NET解析xml返回某节点属性的内容
- 在ASP.NET中动态加载内容 用户控件和模板(转http://www.da8848.cn/article/jiaocheng/NET/3838.html)
- asp.net 提取URL页面内容
- 在asp.net mvc中使用百度UEditor初始化内容遇到自数据库中读取的html字符串在UEditor中始终是html编码的问题
- 利用ASP.NET输出指定内容的WORD、EXCEL、TXT、HTM
- Python中利用xpath解析HTML
- asp.net(C#) Repeater 控件,重复内容(无默认html,高度可自定义化)
- Asp.NET大文件上传组件开发总结(二)---提取文件内容
- ASP.NET中输入文本的HTML解析办法
- ASP.NET 3.5 MVC 架构与实战笔记6 HtmlHelper控件解析