您的位置:首页 > 编程语言 > Java开发

java爬虫技术

2016-03-23 15:01 225 查看
原博:http://983836259.blog.51cto.com/7311475/1730243

开源爬虫分类:

1.分布式爬虫:Nutch

2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector

3. 非JAVA单机爬虫:scrapy

爬虫基本结构及工作流程:

抓取策略:

1.深度优先遍历策略

2.宽度优先遍历策略

3.反向链接数策略

4.Partial PageRank策略

5.OPIC策略策略

6.大站优先策略

爬虫的功能来说。用户比较关心的问题往往是:

  1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?

2)爬虫可以爬取ajax信息么?

3)爬虫怎么爬取要登陆的网站?

4)爬虫怎么抽取网页的信息?

5)爬虫怎么保存网页的信息?

有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。

6)爬虫被网站封了怎么办?

7)网页可以调用爬虫么?

8)爬虫速度怎么样?

10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: