C# 新闻采集(HtmlAgilityPack.dll)的使用
2012-09-26 11:52
609 查看
本文介绍net处理html页面元素的工具类(HtmlAgilityPack.dll)的使用,用途比较多的应该是例如采集类的功能,采集到的html字符串要怎样处理是一个头痛的问题,如果是截取就太麻烦了而且容易出错。所有就用到本文的第三方dll来处理了。下载地址:http://htmlagilitypack.codeplex.com/点击“download”按钮直接下载。1.添加HtmlAgilityPack.dll引用(引用类using HtmlAgilityPack;)。2.简单根据html中input的id获取value代码如下:
// 模拟用户请求 WebClient webClient = new WebClient(); webClient.Encoding = System.Text.Encoding.UTF8; string htmlContext = webClient.DownloadString("http://stone_w.cnblogs.com/"); webClient.Credentials = CredentialCache.DefaultCredentials; // 添加授权证书 webClient.Headers.Add("User-Agent", "Microsoft Internet Explorer"); webClient.Headers.Add("Host", "www.cnblogs.com"); // 获取html元素(htmlContext为html页面字符串) HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(htmlContext); // 加载html页面 HtmlNode navNode = htmlDoc.GetElementbyId("id名称");
Response.Write(navNode.InnerHtml);//Response.Write(navNode.Attributes["value"].Value);HtmlAgilityPack可以根据id查询value,还可以获取单个元素节点,都是HtmlDocument类的内置方法,大家可以试着练练。谢谢完~
相关文章推荐
- 【原创】C# 多线程采集工具(使用 HtmlAgilityPack 工具)
- C# 使用HtmlAgilityPack抓取网页信息
- C#使用HtmlAgilityPack爬虫实例
- 使用C#和HtmlAgilityPack解析HTML
- C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
- HtmlAgilityPack.dll爬虫获取百度音乐批量下载地址(C#源码)
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
- Net处理html页面元素工具类(HtmlAgilityPack.dll)的使用
- C# HTML解析工具HtmlAgilityPack使用简介
- HtmlAgilityPack.dll爬虫获取百度音乐批量下载地址(C#源码)
- Net处理html页面元素工具类(HtmlAgilityPack.dll)的使用
- 爬虫技术 -- 进阶学习(九)使用HtmlAgilityPack获取页面链接(附c#代码及插件下载)
- c#使用htmlagilitypack解析html格式字符串
- 【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用
- Net处理html页面元素工具类(HtmlAgilityPack.dll)的使用
- C#中使用HtmlAgilityPack对html进行解析
- C#使用HtmlAgilityPack抓取糗事百科内容实例
- C#网页数据采集(一)HtmlAgilityPack
- HtmlAgilityPack.dll的使用 获取HTMLid