JAVA语言用正则表达式抓取网页中的email
2013-11-10 10:46
507 查看
和我的上一篇博客一样,这个也是看了马士兵老师关于正则表达式的视频之后做的练习。下面直接上代码。
同样的,代码写得比较粗糙,但是实现了主要功能。大家如果有兴趣的话,可以做一些扩展,比如把要采集的页面URL写到配置文件中,再写个定时器自动采集email并存到数据库中,可以再写个定时器自动取出当天新采集的email并发送邮件。
希望可以共同交流。
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { public static void main(String[] args){ try { try { URL url = new URL("http://www.xxxxx.com/abc/");//这里可以自己找一个有很多邮箱的页面。 try { InputStream is = url.openStream(); InputStreamReader isr = new InputStreamReader(is); BufferedReader br = new BufferedReader(isr); Pattern p = Pattern.compile("[\\w.-]+@[\\w.-]+\\.\\w+"); String line = ""; try { while((line = br.readLine()) != null){ Matcher m = p.matcher(line); if(m.find()){ System.out.println(m.group()); } } } catch (IOException e) { e.printStackTrace(); } } catch (IOException e) { e.printStackTrace(); } } catch (MalformedURLException e1) { e1.printStackTrace(); } } catch (Exception e) { e.printStackTrace(); } } }
同样的,代码写得比较粗糙,但是实现了主要功能。大家如果有兴趣的话,可以做一些扩展,比如把要采集的页面URL写到配置文件中,再写个定时器自动采集email并存到数据库中,可以再写个定时器自动取出当天新采集的email并发送邮件。
希望可以共同交流。
相关文章推荐
- Java正则表达式(一)、抓取网页email地址实例
- Java正则表达式,抓取网页email地址实例
- Java正则表达式,抓取网页email地址实例
- java正则表达式的使用1 通过正则表达式抓取网页中的email
- java正则表达式匹配网页email(email抓取)
- Java正则表达式(一)、抓取网页email地址实例
- Java正则表达式(一)、抓取网页email地址实例
- java通过url抓取网页数据-----正则表达式
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- java爬虫--使用正则表达式获取网页中的email
- 详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- java正则表达式例程 提取网页中的email 统计代码的空行 有效代码行 注释行
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- 利用python正则表达式抓取网页中的图片到本地
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- 基于Source和正则表达式的Scala网页内容抓取
- [原]java正则表达式匹配网页页面数据
- 抓取网页文件中的email地址的简易java程序
- java 使用正则表达式从网页上提取网站标题