从网上收集EMail(正则表达式,C#源码)
2007-10-19 09:44
288 查看
最近一直琢磨着写一个网络蜘蛛程序,专门负责收集一些自己感兴趣的东西。用.net写程序从网上取得网页源码比较容易实现,蜘蛛程序的难点在于两个方面,一是如何多线程的自动化处理(即从一个地址跳到另一个地址),另一个是从网页中提取指定的信息。自动化处理方面正在研究,从网页中提取信息,我觉得网上某些网友用String/StringBuilder来处理的方法不可取,用“正则表达式”无疑是最好的。尽管“正则表达式”不容易书写,但查一查资料,还是不难的。
以下是我写的一个从网页中抓取EMail的方法,可以处理带分页的link。用这个程序,我一下子从一个网页中提取到3000多个EMail(哈哈,发垃圾邮件的人是不是也这样做的??)
上述代码中的关键是书写提取EMail的表达式:
@"(?<EmailStr>\b[A-Z0-9._%-]+@[A-Z0-9._%-]+\.[A-Z]{2,4}\b)"
以下是我写的一个程序界面及运行结果:
以下是我写的一个从网页中抓取EMail的方法,可以处理带分页的link。用这个程序,我一下子从一个网页中提取到3000多个EMail(哈哈,发垃圾邮件的人是不是也这样做的??)
1 //CAll 2 private void GetAllURL(string urlStr) 3 private void GetEmailAddress(object urlStr) private ArrayList GetWebInfo(string URlStr,string RegExpress)
上述代码中的关键是书写提取EMail的表达式:
@"(?<EmailStr>\b[A-Z0-9._%-]+@[A-Z0-9._%-]+\.[A-Z]{2,4}\b)"
以下是我写的一个程序界面及运行结果:
相关文章推荐
- 网上收集的正则表达式
- C#正则表达式常见使用收集
- 解读 C# 中的正则表达式[来自网上]
- 常用正则表达式(网上收集的)
- C#中的正则表达式网上摘抄
- C#源码匹配常用正则表达式(摘录)
- 正则表达式收集与C#方式实现
- 转 常用C#正则表达式收集。
- 转 常用C#正则表达式收集。
- C# 处理html 标签一些正则表达式 整理收集
- C# 中 ,各种格式的正则表达式(手机号、email、url、时间、身份证、数字、ip)
- C#收集网页中的EMail实现源码
- C#中使用正则表达式验证Email格式、IP地址格式和URL网址格式
- c#中的正则表达式的源码
- 常用C#正则表达式收集。
- C# 正则表达式验证代码(字母、数字、Email、网址、电话号码、汉字、身份证号码)
- C# 验证IP地址、Email格式、URl网址(正则表达式)
- 在C#怎用一条正则表达式验证用逗号隔开的email地址
- C#中使用正则表达式验证Email格式、IP地址格式和URL网址格式
- C#收集网页中的EMail实现源码