您的位置:首页 > 理论基础 > 计算机网络

Java实现简单的网络爬虫

2014-06-10 10:34 260 查看
摘要 一直以来都希望自己做一个站内的搜索引擎,其实不一定是一个搜索引擎,关键是能分析网站数据的东西,java有很多开源的爬虫实现,但是开始还是从一个简单的里面了解其原理吧。 总共有6个类,先介绍下每个类的功能: DownloadPage.java的功能是下载此超链接的

一直以来都希望自己做一个站内的搜索引擎,其实不一定是一个搜索引擎,关键是能分析网站数据的东西,java有很多开源的爬虫实现,但是开始还是从一个简单的里面了解其原理吧。

总共有6个类,先介绍下每个类的功能:

DownloadPage.java的功能是下载此超链接的页面源代码.

FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。

HrefOfPage.java 的功能是获取页面源代码的超链接。

UrlDataHanding.java 的功能是整合各个给类,实现url到获取数据到数据处理类。

UrlQueue.java 的未访问Url队列。

VisitedUrlQueue.java 已访问过的URL队列。

1.DownloadPage.java 此类要用到HttpClient组件。

2.FunctionUtils.java 此类的方法均为static方法

3.HrefOfPage.java 此类为获取页面的超链接

4.UrlDataHanding.java 此类主要是从未访问队列中获取url,下载页面,分析url,保存已访问url等操作,实现Runnable接口

5.UrlQueue.java 此类主要是用来存放未访问的URL队列

6.VisitedUrlQueue.java 主要是保存已访问过的URL,使用HashSet来保存,主要是考虑到每个访问过的URL是不同。HashSet刚好符合这个要求

7.Test.java 此类为测试类

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: