Asp.net解析HTML并利用XPATH分析提取内容
2012-01-16 05:17
597 查看
======================================================
注:本文源代码点此下载
======================================================
asp.net解析html并利用xpath分析提取内容
html解析器有很多种,最常用的是htmlagilitypack和sgmlreader(http://sourceforge.net/projects/dekiwiki/files/sgmlreader/)。
这里使用的是htmlagilitypack:
下载地址:http://htmlagilitypack.codeplex.com
同时官网提供了一个自动生成xpath路径的工具hap explorer。
关于xpath表达式以及相关教程参见:xpath表达式精选[更新中...]
获取html的方式有很多种:
1.通过httpwebrequest类可实现模拟登录并获取页面信息
2.用第三方控件模拟登录,参见:正在做简历搬家功能。
分享一下研究过程
使用方法:
首先引用htmlagilitypack的dll文件 using htmlagilitypack;
根据xpath提取内容的函数:
///
/// 根据xpath获取筛选的字符串
///
///
需要提取html的内容
///
xpath表达式
///
分隔符
/// 提取后的内容
public static string getstrbyxpath(string content, string xpath, string separ)
{
htmldocument doc1 = new htmldocument();
doc1.loadhtml(content);
htmlnodecollection repeatnodes = doc1.documentnode.selectnodes(xpath);
string text = "";
//循环节点
foreach (htmlnode node in repeatnodes)
{
text += node.innertext + separ;
}
return text;
}
绿色通道:好文要顶关注我收藏该文与我联系
posted @ 2011-05-24 15:25
潇客的技术博客 阅读(434)
评论(0)编辑
收藏
======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定
这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
注:本文源代码点此下载
======================================================
asp.net解析html并利用xpath分析提取内容
html解析器有很多种,最常用的是htmlagilitypack和sgmlreader(http://sourceforge.net/projects/dekiwiki/files/sgmlreader/)。
这里使用的是htmlagilitypack:
下载地址:http://htmlagilitypack.codeplex.com
同时官网提供了一个自动生成xpath路径的工具hap explorer。
关于xpath表达式以及相关教程参见:xpath表达式精选[更新中...]
获取html的方式有很多种:
1.通过httpwebrequest类可实现模拟登录并获取页面信息
2.用第三方控件模拟登录,参见:正在做简历搬家功能。
分享一下研究过程
使用方法:
首先引用htmlagilitypack的dll文件 using htmlagilitypack;
根据xpath提取内容的函数:
///
/// 根据xpath获取筛选的字符串
///
///
需要提取html的内容
///
xpath表达式
///
分隔符
/// 提取后的内容
public static string getstrbyxpath(string content, string xpath, string separ)
{
htmldocument doc1 = new htmldocument();
doc1.loadhtml(content);
htmlnodecollection repeatnodes = doc1.documentnode.selectnodes(xpath);
string text = "";
//循环节点
foreach (htmlnode node in repeatnodes)
{
text += node.innertext + separ;
}
return text;
}
绿色通道:好文要顶关注我收藏该文与我联系
posted @ 2011-05-24 15:25
潇客的技术博客 阅读(434)
评论(0)编辑
收藏
======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定
这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
相关文章推荐
- Asp.net解析HTML并利用XPATH分析提取内容
- asp.net利用正则在HTML中提取图片路径
- Asp.Net(C#)利用XPath解析XML文档示例
- Asp.Net(C#)利用XPath解析XML文档示例
- Asp.Net(C#)利用XPath解析XML文档示例
- asp.net利用正则在HTML中提取图片路径
- Python中利用xpath解析HTML
- 使用Perl的HTML::TreeBuilder::XPath来解析网页内容
- [ASP.NET MVC] 利用动态注入HTML的方式来设计复杂页面
- 利用Asp.net Ajax异步获取xml文档内容
- ASP.NET小收集<9>:HTML解析
- Asp.net MVC 3 Razor 视图引擎 中使用@输出的内容都会被自动进行HTML编码 问题的解决办法
- Asp.net正则获取html内容
- 认识 ASP.NET 3.5 MVC 路由解析分析
- 怎么利用xpath解析html数据
- 一个PDF合并操作实现类,利用iTextSharp控件实现(http://www.diybl.com/course/4_webprogram/asp.net/asp_netxl/2008109/149644.html)
- [ASP.NET MVC] 利用动态注入HTML的方式来设计复杂页面
- 利用Asp.net Ajax异步获取xml文档内容
- ASP.NET技巧:请求网址并解析返回的html