您的位置：首页 > 理论基础 > 计算机网络

简易网络爬虫

2015-11-10 19:30 253 查看

queue队列（存放URL):先进先出

简易网络爬虫所用到的类：

queue.java--存放未抓取的URL信息

LinkDB.java--存放已抓取和未抓取的URL信息

FileDownloader.java--网页下载器

ExtractLink.java--抽取网页当中所有URL

LinkFilter.java--实现URL过滤操作

Crawler.java--网络爬虫入口类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络爬虫

相关文章推荐

我投了份简历，接到了十八个骚扰电话
使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
apache禁止搜索引擎收录、网络爬虫采集的配置方法
python3简单实现微信爬虫
python使用rabbitmq实现网络爬虫示例
垂直型爬虫架构设计(1)
垂直型爬虫架构设计(2)
小编详解网络蜘蛛的安全隐患及预防方法
利用DHT网络原理制作bt采集蜘蛛，开源版
现在公开一个DHT网络爬虫网络爬虫供大家一起交流
利用DHT网络原理制作bt采集蜘蛛，开源版
利用DHT网络原理制作bt采集蜘蛛，开源版
现在公开一个DHT网络爬虫网络爬虫供大家一起交流
HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容
网络爬虫(源代码) 转载Ackarlix
python下安装美汤beautifulsoup包过程
Python处理中文文本字符时提取某个汉字或字符的方法
10月10日基础班开班了——广州传智播客
Torrent文件
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

新的分享

【Java面试】TCP协议为什么要设计三次握手？
深度学习与CV教程(11) | 循环神经网络及视觉应用
又一起 BGP 劫持事件，影响全球 200 多家云服务和 CDN 提供商
深度学习与CV教程(7) | 神经网络训练技巧 (下)
网络协议之:haproxy的Proxy Protocol代理协议
Nginx实现https、重定向https
NLP教程(9) - 句法分析与树形递归神经网络
艾瑞咨询：2020年中国疫情时期网络长视频内容价值回顾及探索
每天一个 HTTP 状态码 206
每天一个 HTTP 状态码 205
每天一个 HTTP 状态码 204
每天一个 HTTP 状态码 203

章节导航