您的位置:首页 > 理论基础 > 计算机网络

简易网络爬虫

2015-11-10 19:30 253 查看
queue队列(存放URL):先进先出

简易网络爬虫所用到的类:

queue.java--存放未抓取的URL信息

LinkDB.java--存放已抓取和未抓取的URL信息

FileDownloader.java--网页下载器

ExtractLink.java--抽取网页当中所有URL

LinkFilter.java--实现URL过滤操作

Crawler.java--网络爬虫入口类
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  网络爬虫