ASP.NET 抓取网页
2015-11-13 09:33
633 查看
protected void GetHtml(string url,int pageSize) { int pagesize = Convert.ToInt32(txtPageSize.Text.Trim());//获取到总共有多少页 WebClient wc = new WebClient(); wc.Encoding = Encoding.Default; for (int i = 1; i <= pagesize; i++) { url = url.Trim() + "?pn="; if (string.IsNullOrEmpty(url)) { return; } url += i; string html = wc.DownloadString(url);//获取到当前页的html内容 //MatchCollection mc = Regex.Matches(html, @"\w+((-w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+"); MatchCollection mc = Regex.Matches(html, @"[1-9][0-9]{4,11}@(qq|QQ).com"); StringBuilder sb = new StringBuilder(); foreach (Match m in mc) { sb.AppendLine(m.Value + ";"); } string s = sb.ToString(); //File.AppendAllText(@"h:\1.txt", s, Encoding.Default); } }
相关文章推荐
- 摘抄——OWASP_Code_Review_Guide-V1_1 (1)
- asp.net 子页面关闭刷新父页面
- asp.net 子页面关闭刷新父页面
- asp.net夜话之五:Page类和回调技术
- (easyui datagrid+mvc+json)之asp.net分页查询
- Asp.net页面间传值方式汇总
- ASP.NET页面通过URL传递参数(一)(转载)
- Request 分别获取具有相同 name 属性表单元素值—— 怀念 Classic ASP (转自博客园)
- ASP.NET 5 开发者的五个阶段
- Struts2整合jasperreport缓存处理方法
- asp.net下载文件几种方式
- Asp.net获取程序路径
- IIS对ASP的解析问题
- ASP.NET 页生命周期概述
- ASP.NET 简单鼠标右键效果contextmenutrip
- .Net动态代理Castle系列
- ASP.NET两个常见的异常 如未能创建 Mutex
- asp.net 后台按钮事件弹出新页而不被阻止
- asp.net 后台按钮事件弹出新页而不被阻止
- Asp.Net Form验证