Nutch-2.2.1学习之一Nutch简介
2013-11-19 15:27
92 查看
Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:
1. Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。
2. Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。
上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:
1. Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。
2. 现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。
3. 两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。
现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。
1. Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。
2. Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。
上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:
1. Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。
2. 现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。
3. 两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。
现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。
相关文章推荐
- Nutch学习笔记2: Nutch-2.2.1脚本分析
- Nutch-2.2.1学习之六以伪分布模式运行Nutch
- Nutch-2.2.1学习之二编译部署Nutch及常见问题
- Nutch-2.2.1学习之五Nutch抓取数据在HBase中的存储
- Nutch-2.2.1学习之三Nutch配置文件
- Nutch-2.2.1学习之四Nutch与Hbase结合使用时常见问题
- Nutch-2.2.1学习之七Nutch与Solr的集成
- Nutch-2.2.1学习之八过滤抓取数据
- Nutch-2.2.1学习之九Nutch过滤URL实践
- 【Gradle 简介】Gradle 构建编译工程学习笔记和使用总结
- Guava学习笔记:Google Guava 类库简介
- nutch-1.7-学习笔记(1)-org.apache.nutch.crawl.Injector.java-Configuration
- [jQuery]学习笔记(一):jQuery的简介和安装教程
- Hazelcast学习(一)之简介
- linux学习笔记二开源系统简介
- C语言学习笔记(二)--数据类型、常量和变量简介
- Nutch 1.3 学习笔记2
- java io流学习(一) IO类及File类简介
- Nutch2.2.1 笔记一 : 环境准备,将Nutch导入到STS/Eclipase
- Android的Notification的简介-android学习之旅(四十一)