《黑马程序员》 javaweb网页爬虫技术的实现
2014-03-06 13:40
155 查看
------- android培训、java培训、期待与您交流! ----------
package cn.itcast.p6.regex; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexDemo6 { /** * @param args */ /** *网页爬虫技术: * 其实就是一个程序在网页中获取符合指定规则的数据 * 爬取邮箱地址 * A本地文件或网络中的m * @throws IOException * */ public static void main(String[] args) throws IOException { List<String> listu=getMails_3(); for(String li:listu){ System.out.println(li); } } public static List<String> getMails_3() throws IOException{ //获取网站中的邮箱: URL url=new URL("http://192.168.123.209:8080/myweb/test.html"); //设定源 BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream())); //将读取到的数据存储在集合中 List<String> list=new ArrayList<String>(); String line=null; //定义规则 // String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; // String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; String regex="\\w+@\\w+(\\w+.)+"; Pattern p=Pattern.compile(regex); while((line=br.readLine())!=null){ //把读取到的数据存储在集合中 Matcher m=p.matcher(line); while(m.find()){ list.add( m.group()); } } return list; } public static List<String> getMails_2() throws IOException{ //设定源 BufferedReader br=new BufferedReader(new FileReader("d:\\a.txt")); //将读取到的数据存储在集合中 List<String> list=new ArrayList<String>(); String line=null; //定义规则 // String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; // String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; String regex="\\w+@\\w+(\\w+.)+"; Pattern p=Pattern.compile(regex); while((line=br.readLine())!=null){ //把读取到的数据存储在集合中 Matcher m=p.matcher(line); while(m.find()){ list.add( m.group()); } } /* //对集合进行遍历,取出数据 for(String url:list){ System.out.println(url); }*/ return list; }
相关文章推荐
- 爬虫技术(2)--抓取网页java代码实现
- python爬虫技术实现图片提取
- nodejs 实现网络爬虫技术
- 网页爬虫 可能用到的技术
- 网页爬虫-R语言实现基本函数
- JAVA实现网页爬虫及将数据写入数据库
- 网页爬虫技术浅析
- 分布式网络爬虫关键技术分析与实现——分布式网络爬虫体系结构设计
- IOS 利用UIWebView和javascript的技术实现打开网页快速定位到某处(id)
- python实现的一个简单的网页爬虫
- 关键技术之单机爬虫的实现(2)---多线程?
- 通过爬虫、lucene和python.web实现网页搜索引擎
- 爬虫之了解---网站/网页前端技术概述
- 网页爬虫的设计与实现(Java…
- python2.7实现爬虫网页数据
- 基于C#实现网页爬虫
- 网页栅格系统研究(4):技术实现
- Java 网络爬虫获取网页源代码原理及实现
- JavaWeb学习之转发和重定向、会话技术:cookie、session、验证码实例、URLConnection使用(下载网页)(4)
- 巧用C#webbrowser以及Application.DoEvents()实现采集动态网页的爬虫机器人