真正解决HtmlAgilityPack抓取网页 中文乱码问题
2010-08-10 16:31
831 查看
打开HtmlAgilityPack.1.4.0.Source工程 找到HtmlWeb.cs文件打开修改下面方法中的一小段代码: private HttpStatusCode Get(Uri uri, string method, string path, HtmlDocument doc, IWebProxy proxy, ICredentials creds)函数中的下方的代码 Encoding respenc = !string.IsNullOrEmpty(resp.ContentEncoding) ? Encoding.GetEncoding(resp.ContentEncoding) : null; /*修改成下面的即可*/ /*王..修改 中文乱码问题*/ //Encoding respenc = !string.IsNullOrEmpty(resp.ContentEncoding) // ? Encoding.GetEncoding(resp.ContentEncoding) // : null; System.Text.Encoding respenc; if ((resp.ContentEncoding != null) && (resp.ContentEncoding.Length > 0)) { respenc = System.Text.Encoding.GetEncoding(resp.ContentEncoding); } else if ((resp.CharacterSet != null) && (resp.CharacterSet.Length > 0))//根据Content-Type中获取的charset { if (string.Compare(resp.CharacterSet, "ISO-8859-1", true, System.Globalization.CultureInfo.InvariantCulture) == 0) respenc = System.Text.Encoding.GetEncoding("GB2312"); else respenc = System.Text.Encoding.GetEncoding(resp.CharacterSet); } else { respenc = System.Text.Encoding.GetEncoding("GB2312"); }
修改后之后,重新编译一下,再使用dll,就不会中文乱码了...
可下载自己修改过的文件:
http://download.csdn.net/source/2617090
相关文章推荐
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 解决HttpWebRequest和HtmlAgilityPack采集网页中文乱码问题
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- 解决HtmlAgilityPack中文乱码
- 解决PHP中file_get_contents抓取网页中文乱码问题
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- Python+Requests安装及抓取网页源码中文乱码问题的解决
- python 解决抓取网页中的中文显示乱码问题
- python 网页抓取中的中文乱码问题解决
- Node.js抓取中文网页乱码问题和解决方法
- HtmlAgilityPack中文乱码问题
- 使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- Node.js抓取中文网页乱码问题和解决方法
- 使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
- python 解决抓取网页中的中文显示乱码问题