您的位置：首页 > 理论基础 > 数据结构算法

nutch系列1——nutch简单介绍

2016-05-11 16:24 429 查看

**原文链接：http://dtbuluo.com/52.html

Nutch起源于ApacheLucene项目，已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目，并且实现了多元化，包括两个版本的代码库，即：

1.Nutch1.x版本：一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构，并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。

2. Nutch2.x的版本：一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同，新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型（抓取时间、状态、内容、分析的文本、外链接、内链接等）使其集成到许多NoSQL存储解决方案。

上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/，从上面的信息可以了解到：

Nutch是一个开源的网络爬虫项目，更具体些是一个爬虫软件，可以直接用于抓取网页内容。

现在Nutch分为两个版本，1.x和2.x。1.x最新版本为1.7，2.x最新版本为2.2.1。

两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的，底层存储使用的是HDFS，而2.x通过使用Apache Gora，使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。

现在大体上已经对Nutch有了大概的了解，那为什么要学习Nutch呢？学习Nutch的初衷是源于当今比较流行的大数据，开始的想法是获取网络上的信息，经由Hadoop处理后存储在HBase中，方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人，我们可以通过Nutch自己动手构建大规模数据，创建属于自己的大数据。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop apache 网络爬虫数据结构可扩展

相关文章推荐

新的分享

章节导航