您的位置:首页 > 大数据 > Hadoop

大数据技术之Hadoop

2019-05-06 22:58 901 查看

大数据产生背景

主要解决海量数据的存储和海量数据的分析计算问题。

大数据特点

1.大量
2.高速
3.多样
4.低价值密度

大数据应用场景

1.物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。

2.零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
3.旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理,智慧服务和智慧营销。

4.商品广告推荐:给用户推荐可能喜欢的产品。
5.保险:海量数据挖掘与风险预测,助力保险行业精准营销,提升精细化定价能力。
6.金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
7.房产:大数据全面助力房地产行业,打造精准机制与营销,选出更合适的地,建设更适合的楼,卖给更合适的人。
8.人工智能:

大数据发展前景

1.国家实施大数据战略
2.十九大提出:推动互联网,大数据,人工智能和实体经济深度融合
3.大数据人才缺口大
4.北大,清华,北邮等高校申请开设大数据课程
5.大数据属于高新技术,大牛少,升职竞争小
6.大数据一线开发大牛百万年薪,还在持续上涨

大数据组织结构

Hadoop的优势

1.高可靠性:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2.高扩展性:在集群间分配任务数据,可方便扩展数以千计的节点。
3.高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4.高容错性:能够自动将任务重新分配。

Hadoop组成

Hadoop1.x和Hadoop2.x区别

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性比较大;

在Hadoop2.x时代,增加了Yarn,Yarn只负责资源调度,MapReduce只负责运算。

HDFS架构概述

NameNode:存储文件的目录

DataNode:存储数据

Secondary NameNode:监控HDFS状态的辅助后台程序,并生成快照文件。

YARN架构概述

1.ResourceManager:
(1)处理客户端请求
(2)监控NodeManager
(3)资源的分配与调度
2.NodeManager:
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理ApplicationMaster的命令
3.ApplicationMaster:
(1)负责数据的切分
(2)为应用程序申请资源,并分配给内部的任务
(3)任务的监控与容错
4.Container:
(1)Container是Yarn中资源的抽象,封装某个节点上的多维度资源,比如CPU,内存,磁盘,网络。

MapReducer架构概述

计算过程分为两个阶段

1.Map阶段:并行处理数据
2.Reducer阶段:对Map结果进行汇总

大数据技术生态体系

。。。

 

(adsbygoogle = window.adsbygoogle || []).push({});
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  HDFS Yarn Hadoop