简易网络爬虫
2015-11-10 19:30
253 查看
queue队列(存放URL):先进先出
简易网络爬虫所用到的类:
queue.java--存放未抓取的URL信息
LinkDB.java--存放已抓取和未抓取的URL信息
FileDownloader.java--网页下载器
ExtractLink.java--抽取网页当中所有URL
LinkFilter.java--实现URL过滤操作
Crawler.java--网络爬虫入口类
简易网络爬虫所用到的类:
queue.java--存放未抓取的URL信息
LinkDB.java--存放已抓取和未抓取的URL信息
FileDownloader.java--网页下载器
ExtractLink.java--抽取网页当中所有URL
LinkFilter.java--实现URL过滤操作
Crawler.java--网络爬虫入口类
相关文章推荐
- 我投了份简历,接到了十八个骚扰电话
- 使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
- apache禁止搜索引擎收录、网络爬虫采集的配置方法
- python3简单实现微信爬虫
- python使用rabbitmq实现网络爬虫示例
- 垂直型爬虫架构设计(1)
- 垂直型爬虫架构设计(2)
- 小编详解网络蜘蛛的安全隐患及预防方法
- 利用DHT网络原理制作bt采集蜘蛛,开源版
- 现在公开一个DHT网络爬虫网络爬虫供大家一起交流
- 利用DHT网络原理制作bt采集蜘蛛,开源版
- 利用DHT网络原理制作bt采集蜘蛛,开源版
- 现在公开一个DHT网络爬虫网络爬虫供大家一起交流
- HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容
- 网络爬虫(源代码) 转载Ackarlix
- python下安装美汤beautifulsoup包过程
- Python处理中文文本字符时提取某个汉字或字符的方法
- 10月10日基础班开班了——广州传智播客
- Torrent文件
- 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)