hadoop技术与性能优化----为什么会有hadoop
2015-11-28 17:25
316 查看
为什么会有hadoop,其实研究hadoop已经有一段时间了,前期亲手搭建了自己的全分布式hadoop集群,然后捧着一本全英文的hadoop权威指南啃了一大半,然而在没有实战训练的情况下,我的学习进度一直提不上来,这让我很被动,开始写博客的原因也是想通过一点一滴的记录来让自己明确下来。
理论上讲,hadoop是一种工具,这种工具产生自数据量的膨胀,hadoop提出的分布式处理的思想,就是多台电脑批量处理数据的解决方案。该方案的最大优势就是它依托的是平价的机器。一般来说,一个有着100台机器的集群,就像一个有着100条流水线的操作流程一样,来分担PB/TB级别的任务,再加上每条流水线在业务流程上升级,以此来达到短时间内消化大量数据的目的。然而,这样粗粒度的理解对于一个将要从事数据处理相关工作的人来说没有任何帮助,下面我从我的角度来进一步学习hadoop的内部结构,hadoop是一个工具我把它看作一个软件,面对一个软件,我们想了解的不外乎以下几点:
理论层面:
第一:hadoop是做什么的
第二:hadoop怎么做
第三:hadoop做的怎么样
技术层面:
第一:hadoop中数据的输入
目的
方法
效果
第二:hadoop中数据的存储
目的
方法
效果
第三:hadoop中数据的处理
目的
方法
效果
第四:hadoop中数据的输出
目的
方法
效果
细化内容在之后的博客中陆续给出。。。
此次就是要从零开始,梳理hadoop的相关内容,不足之处,请各位批评指正。
理论上讲,hadoop是一种工具,这种工具产生自数据量的膨胀,hadoop提出的分布式处理的思想,就是多台电脑批量处理数据的解决方案。该方案的最大优势就是它依托的是平价的机器。一般来说,一个有着100台机器的集群,就像一个有着100条流水线的操作流程一样,来分担PB/TB级别的任务,再加上每条流水线在业务流程上升级,以此来达到短时间内消化大量数据的目的。然而,这样粗粒度的理解对于一个将要从事数据处理相关工作的人来说没有任何帮助,下面我从我的角度来进一步学习hadoop的内部结构,hadoop是一个工具我把它看作一个软件,面对一个软件,我们想了解的不外乎以下几点:
理论层面:
第一:hadoop是做什么的
第二:hadoop怎么做
第三:hadoop做的怎么样
技术层面:
第一:hadoop中数据的输入
目的
方法
效果
第二:hadoop中数据的存储
目的
方法
效果
第三:hadoop中数据的处理
目的
方法
效果
第四:hadoop中数据的输出
目的
方法
效果
细化内容在之后的博客中陆续给出。。。
此次就是要从零开始,梳理hadoop的相关内容,不足之处,请各位批评指正。
相关文章推荐
- 深入理解PHP7内核之FAST_ZPP
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- 单机版搭建Hadoop环境图文教程详解
- Flex 性能优化常用手法总结
- oracle 性能优化建议小结
- Lua性能优化技巧(一):前言
- Lua性能优化技巧(五):削减、重用和回收
- Lua性能优化技巧(三):关于表
- Lua性能优化技巧(四):关于字符串
- MySQL性能优化 出题业务SQL优化
- PowerShell脚本性能优化技巧总结
- SQL SERVER性能优化综述(很好的总结,不要错过哦)第1/3页
- MySQL Index Condition Pushdown(ICP)性能优化方法实例
- Ajax无刷新分页的性能优化方法
- hadoop常见错误以及处理方法详解
- dedecms负载性能优化实例,三招让你的dedecms快10倍以上第1/2页
- 如何减少浏览器的reflow和repaint
- javascript日期处理函数,性能优化批处理