java爬虫--使用正则表达式获取网页中的email
2016-11-19 17:18
489 查看
package com.enation.newtest; import java.io.*; import java.util.regex.*; import java.net.*; public class MailTest{ public static void main(String[] args) throws Exception{ getMailAddr(); } public static void getMailAddr()throws Exception{ URL url=new URL("http://blog.sina.com.cn/s/blog_515617e60101e151.html"); URLConnection con=url.openConnection(); BufferedReader bufIn=new BufferedReader(new InputStreamReader(con.getInputStream())); BufferedWriter bufw=new BufferedWriter(new FileWriter(new File("D:\\360Downloads\\mailaddress2.txt"))); String str=null; String regex="[a-zA-Z0-9_]{6,12}@[a-zA-Z0-9]+(.[a-zA-Z]+)+"; Pattern p=Pattern.compile(regex); System.out.println("start"); while((str=bufIn.readLine())!=null) { Matcher m=p.matcher(str); while(m.find()){ String ss=m.group(); bufw.write(ss,0,ss.length()); bufw.newLine(); bufw.flush(); } } System.out.println("end"); } }
获取网页内容,并将页面中的邮件地址存存放在指定的路径中,写入到txt文件里
相关文章推荐
- java正则表达式简单使用和网页爬虫的制作代码
- java正则表达式的使用1 通过正则表达式抓取网页中的email
- Java中使用正则表达式获取网页中所有图片的路径
- Java中使用正则表达式获取网页中所有图片的路径
- 使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中
- JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫
- JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫
- JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫
- 正则表达式-网页爬虫-从服务器或本地文件获取邮件地址
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
- Java正则表达式--网页爬虫
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Java正则表达式之网页爬虫
- java利用正则表达式获取一个网页中的所有邮箱地址
- Java简单爬虫系列(3)---正则表达式和Java正则API的使用
- Java简单爬虫系列(4)--- 正则表达式获取百度LOGO
- java 基础,使用正则表达式从字符串中获取电话号码
- day25正则表达式,匹配,切割,替换。获取。网页爬虫
- java 使用正则表达式从网页上提取网站标题