java爬虫技术
2016-03-23 15:01
225 查看
原博:http://983836259.blog.51cto.com/7311475/1730243
开源爬虫分类:
1.分布式爬虫:Nutch
2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫:scrapy
爬虫基本结构及工作流程:
抓取策略:
1.深度优先遍历策略
2.宽度优先遍历策略
3.反向链接数策略
4.Partial PageRank策略
5.OPIC策略策略
6.大站优先策略
爬虫的功能来说。用户比较关心的问题往往是:
1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?
2)爬虫可以爬取ajax信息么?
3)爬虫怎么爬取要登陆的网站?
4)爬虫怎么抽取网页的信息?
5)爬虫怎么保存网页的信息?
有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。
6)爬虫被网站封了怎么办?
7)网页可以调用爬虫么?
8)爬虫速度怎么样?
10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?
开源爬虫分类:
1.分布式爬虫:Nutch
2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫:scrapy
爬虫基本结构及工作流程:
抓取策略:
1.深度优先遍历策略
2.宽度优先遍历策略
3.反向链接数策略
4.Partial PageRank策略
5.OPIC策略策略
6.大站优先策略
爬虫的功能来说。用户比较关心的问题往往是:
1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?
2)爬虫可以爬取ajax信息么?
3)爬虫怎么爬取要登陆的网站?
4)爬虫怎么抽取网页的信息?
5)爬虫怎么保存网页的信息?
有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。
6)爬虫被网站封了怎么办?
7)网页可以调用爬虫么?
8)爬虫速度怎么样?
10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?
相关文章推荐
- java实现图片压缩的思路与代码
- 如何将java程序包打包成.exe文件,在没有安装jre的windows上运行
- struts配置找不到正确的action时所要跳转的action
- 编译openjdk
- Struts2 常用的表单标签使用
- Java基础 transient关键字
- 一致性哈希算法与Java实现
- maven增加Spring
- NetBeans中文乱码解决办法
- JAVA中使用JSON进行数据传递
- spring 事务传播特性 和隔离级别
- JAVA反射机制
- java eclipse中的快捷键
- 详解Java解析XML的四种方法
- Spring Data是什么?
- J.U.C体系结构(java.util.concurrent)
- java 中关于I/O操作一些相关类的使用
- java类库
- java 输出控制台录入
- java内存泄露