nutch系列1——nutch简单介绍
2016-05-11 16:24
429 查看
**原文链接:http://dtbuluo.com/52.html
Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:
1.Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。
2. Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。
上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:
Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。
现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。
两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。
现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。
Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:
1.Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。
2. Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。
上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:
Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。
现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。
两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。
现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。
相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- Apache Isis 1.4.0 发布,领域驱动开发框架
- 我投了份简历,接到了十八个骚扰电话
- 单机版搭建Hadoop环境图文教程详解
- RH436 Day3 课后总结
- Linux快速构建apache web服务器
- Awstats处理多apache日志
- 安装perl模块小窍门
- Apache静态编译与动态编译的区别
- C#数据结构之顺序表(SeqList)实例详解
- PHP+Apache在Windows 9x下的安装和配置
- Apache服务器配置全攻略
- Apache Web让JSP“动”起来
- Linux Apache+MySQL+PHP
- 建立Apache+PHP+MySQL数据库驱动的动态网站
- Lua教程(七):数据结构详解
- apache 环境下 php 的配置注意事项
- 解析从源码分析常见的基于Array的数据结构动态扩容机制的详解