数据科学之hadoop大数据存储技术研究之路(一)
2016-08-15 17:08
330 查看
我们所处的信息化时代,数据越来越多,越来越庞杂,成几何级、爆炸式地增长,并且人们对数据的的实时处理要求也高。使得传统的单服务器+盘阵的存储模式,只能满足海量数据存储,但不能满足人们对数据处理的实时性或者快速反应的高处理性需求。
这就需要我们必须研究新的“大数据存储”技术,即要有不断的扩大存储能力,又要保证高效的数据处理能力。
近年来大数据存储技术非常火爆,但技术不再是传统的单一的个体,研究一两点就行了。而是系统的、全面的“生态圈”。这个“生态圈”让初学者很无从下手。这里所讲述的就本人在云里雾里中学习hadoop后的小结,希望能为初学hadoop的同学起到抛砖引玉的作用。
先看下面本人研究过程中总结的思维导图:
从上图右侧可以看出,hadoop生态圈中,包括的软件应用有:hadoop(hdfs\mr)、hbase、hive、pig、sqoop等等 。
其中hadoop(hdfs\mr)是核心,必须研究的,因为hdfs是数据存储介质,一切源于这里。数据文件全存储在这里,所以需要先学习研究它。
hbase可理解为架在hdfs上的数据库,规范数据存储形态。
hive为数据仓库,只有数据处理能力(hql),很象sql。元数据存储在mysql中,与hbase集成后,才能具体数据处理能力,切记它没有数据存储能力,数据还是存储在hdfs上。它的数据处理能力,也只是简单将开发的hql转为mr,所以实际上是在hadoop中执行mr计算的。
pig和hql相近,只是数据处理能力。
sqoop是异构数据源导入hadoop的工具,方便将外部的关系型数据导入。
从上所述,可以看出,hadoop是一个系统的,有序的生态圈技术,每个应用软件都有它自己的功能。我们可以用序的学习,各个击破。从而缩短学习曲线。
那么,如何与实际项目对应,作出解决方案?如何运维?将在之后的博文与大家共同学习。
声明:本人也是初学者,文中内容纯属个人笔记,如有错误还请指正与包含。谢谢!!
这就需要我们必须研究新的“大数据存储”技术,即要有不断的扩大存储能力,又要保证高效的数据处理能力。
近年来大数据存储技术非常火爆,但技术不再是传统的单一的个体,研究一两点就行了。而是系统的、全面的“生态圈”。这个“生态圈”让初学者很无从下手。这里所讲述的就本人在云里雾里中学习hadoop后的小结,希望能为初学hadoop的同学起到抛砖引玉的作用。
先看下面本人研究过程中总结的思维导图:
从上图右侧可以看出,hadoop生态圈中,包括的软件应用有:hadoop(hdfs\mr)、hbase、hive、pig、sqoop等等 。
其中hadoop(hdfs\mr)是核心,必须研究的,因为hdfs是数据存储介质,一切源于这里。数据文件全存储在这里,所以需要先学习研究它。
hbase可理解为架在hdfs上的数据库,规范数据存储形态。
hive为数据仓库,只有数据处理能力(hql),很象sql。元数据存储在mysql中,与hbase集成后,才能具体数据处理能力,切记它没有数据存储能力,数据还是存储在hdfs上。它的数据处理能力,也只是简单将开发的hql转为mr,所以实际上是在hadoop中执行mr计算的。
pig和hql相近,只是数据处理能力。
sqoop是异构数据源导入hadoop的工具,方便将外部的关系型数据导入。
从上所述,可以看出,hadoop是一个系统的,有序的生态圈技术,每个应用软件都有它自己的功能。我们可以用序的学习,各个击破。从而缩短学习曲线。
那么,如何与实际项目对应,作出解决方案?如何运维?将在之后的博文与大家共同学习。
声明:本人也是初学者,文中内容纯属个人笔记,如有错误还请指正与包含。谢谢!!
相关文章推荐
- 论文学习 - 《Hadoop平台下的海量数据存储技术研究》
- 课题研究:面向对象的数据存储与交换技术
- GML数据存储技术的研究与实现
- 车载电子地图数据物理存储技术研究
- 第二章 数据备份和恢复技术 --基于mkCDrec的核心网网络运维系统的备份和恢复的研究与实现
- 运用数据挖掘技术研究方剂配伍规律应注意的几个问题
- 给自己走过的技术研究之路作个小结
- 重复数据删除(De-duplication)技术研究
- 数据安全与数据备份存储技术
- 基于数据挖掘技术入侵检测系统研究
- XML数据查询技术已经成为现今的研究热点
- 几大主存储重复数据删除厂商技术对比
- 数据存储指南之存储备份技术(Tape Tech.)
- 基于树型结构数据的关系数据库存储与网页显示的研究 推荐
- 数据存储指南:存储备份技术详解
- 面向数据集成的ETL技术研究
- JAXB技术的魔力 —— 二维CAD图象数据的存储
- JAXB技术的魔力 --二维CAD图象数据的存储
- 深入研究数据在机器内的存储表示
- [转载]基于数据挖掘技术入侵检测系统研究