Java实现简单的网络爬虫
2014-06-10 10:34
260 查看
摘要 一直以来都希望自己做一个站内的搜索引擎,其实不一定是一个搜索引擎,关键是能分析网站数据的东西,java有很多开源的爬虫实现,但是开始还是从一个简单的里面了解其原理吧。 总共有6个类,先介绍下每个类的功能: DownloadPage.java的功能是下载此超链接的
一直以来都希望自己做一个站内的搜索引擎,其实不一定是一个搜索引擎,关键是能分析网站数据的东西,java有很多开源的爬虫实现,但是开始还是从一个简单的里面了解其原理吧。
总共有6个类,先介绍下每个类的功能:
DownloadPage.java的功能是下载此超链接的页面源代码.
FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。
HrefOfPage.java 的功能是获取页面源代码的超链接。
UrlDataHanding.java 的功能是整合各个给类,实现url到获取数据到数据处理类。
UrlQueue.java 的未访问Url队列。
VisitedUrlQueue.java 已访问过的URL队列。
1.DownloadPage.java 此类要用到HttpClient组件。
2.FunctionUtils.java 此类的方法均为static方法
3.HrefOfPage.java 此类为获取页面的超链接
4.UrlDataHanding.java 此类主要是从未访问队列中获取url,下载页面,分析url,保存已访问url等操作,实现Runnable接口
5.UrlQueue.java 此类主要是用来存放未访问的URL队列
6.VisitedUrlQueue.java 主要是保存已访问过的URL,使用HashSet来保存,主要是考虑到每个访问过的URL是不同。HashSet刚好符合这个要求
7.Test.java 此类为测试类
一直以来都希望自己做一个站内的搜索引擎,其实不一定是一个搜索引擎,关键是能分析网站数据的东西,java有很多开源的爬虫实现,但是开始还是从一个简单的里面了解其原理吧。
总共有6个类,先介绍下每个类的功能:
DownloadPage.java的功能是下载此超链接的页面源代码.
FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。
HrefOfPage.java 的功能是获取页面源代码的超链接。
UrlDataHanding.java 的功能是整合各个给类,实现url到获取数据到数据处理类。
UrlQueue.java 的未访问Url队列。
VisitedUrlQueue.java 已访问过的URL队列。
1.DownloadPage.java 此类要用到HttpClient组件。
相关文章推荐
- Java之——简单的网络爬虫实现
- 关于使用Java实现的简单网络爬虫Demo
- Java实现的网络爬虫程序,简单易懂无框架(我的网络大作业)
- 搜索引擎----Java实现一个简单的网络爬虫
- Java语言实现的简单网络爬虫复习
- java实现简单的网络爬虫(爬取电影天堂电影信息)
- java实现一个简单的网络爬虫代码示例
- 关于使用Java实现的简单网络爬虫Demo
- Java实现简单的网络爬虫(一)
- java 简单网络爬虫实现
- Java实现简单的网络爬虫
- 用java实现一个简单的网络爬虫
- java实现简单的网络爬虫
- 网络爬虫(三) Java实现简单的网络爬虫
- 用URLConnection来实现简单的java网络爬虫
- JAVA 实现简单的网络爬虫,获取网站图片
- Java简单的网络爬虫实现
- JAVA实现简单网络爬虫
- java 简单网络爬虫实现
- 基于Java的简单网络爬虫的实现--下载Silverlight视频