您的位置：首页 > 理论基础 > 计算机网络

Java实现简单的网络爬虫

2014-06-10 10:34 260 查看

摘要一直以来都希望自己做一个站内的搜索引擎，其实不一定是一个搜索引擎，关键是能分析网站数据的东西，java有很多开源的爬虫实现，但是开始还是从一个简单的里面了解其原理吧。总共有6个类，先介绍下每个类的功能： DownloadPage.java的功能是下载此超链接的

一直以来都希望自己做一个站内的搜索引擎，其实不一定是一个搜索引擎，关键是能分析网站数据的东西，java有很多开源的爬虫实现，但是开始还是从一个简单的里面了解其原理吧。

总共有6个类，先介绍下每个类的功能：

DownloadPage.java的功能是下载此超链接的页面源代码.

FunctionUtils.java 的功能是提供不同的静态方法，包括：页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。

HrefOfPage.java 的功能是获取页面源代码的超链接。

UrlDataHanding.java 的功能是整合各个给类，实现url到获取数据到数据处理类。

UrlQueue.java 的未访问Url队列。

VisitedUrlQueue.java 已访问过的URL队列。

1.DownloadPage.java 此类要用到HttpClient组件。

2.FunctionUtils.java 此类的方法均为static方法

3.HrefOfPage.java 此类为获取页面的超链接

4.UrlDataHanding.java 此类主要是从未访问队列中获取url,下载页面，分析url，保存已访问url等操作，实现Runnable接口

5.UrlQueue.java 此类主要是用来存放未访问的URL队列

6.VisitedUrlQueue.java 主要是保存已访问过的URL，使用HashSet来保存，主要是考虑到每个访问过的URL是不同。HashSet刚好符合这个要求

7.Test.java 此类为测试类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航