大数据技术之Hadoop
2019-05-06 22:58
901 查看
大数据产生背景
主要解决海量数据的存储和海量数据的分析计算问题。
大数据特点
1.大量 2.高速 3.多样 4.低价值密度
大数据应用场景
1.物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。
2.零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
3.旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理,智慧服务和智慧营销。
4.商品广告推荐:给用户推荐可能喜欢的产品。
5.保险:海量数据挖掘与风险预测,助力保险行业精准营销,提升精细化定价能力。 6.金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。 7.房产:大数据全面助力房地产行业,打造精准机制与营销,选出更合适的地,建设更适合的楼,卖给更合适的人。
8.人工智能:
大数据发展前景
1.国家实施大数据战略 2.十九大提出:推动互联网,大数据,人工智能和实体经济深度融合 3.大数据人才缺口大 4.北大,清华,北邮等高校申请开设大数据课程 5.大数据属于高新技术,大牛少,升职竞争小 6.大数据一线开发大牛百万年薪,还在持续上涨
大数据组织结构
Hadoop的优势
1.高可靠性:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2.高扩展性:在集群间分配任务数据,可方便扩展数以千计的节点。 3.高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 4.高容错性:能够自动将任务重新分配。
Hadoop组成
Hadoop1.x和Hadoop2.x区别
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性比较大; 在Hadoop2.x时代,增加了Yarn,Yarn只负责资源调度,MapReduce只负责运算。
HDFS架构概述
NameNode:存储文件的目录 DataNode:存储数据 Secondary NameNode:监控HDFS状态的辅助后台程序,并生成快照文件。
YARN架构概述
1.ResourceManager: (1)处理客户端请求 (2)监控NodeManager (3)资源的分配与调度
2.NodeManager: (1)管理单个节点上的资源 (2)处理来自ResourceManager的命令 (3)处理ApplicationMaster的命令
3.ApplicationMaster: (1)负责数据的切分 (2)为应用程序申请资源,并分配给内部的任务 (3)任务的监控与容错
4.Container: (1)Container是Yarn中资源的抽象,封装某个节点上的多维度资源,比如CPU,内存,磁盘,网络。
MapReducer架构概述
计算过程分为两个阶段
1.Map阶段:并行处理数据 2.Reducer阶段:对Map结果进行汇总
大数据技术生态体系
。。。
(adsbygoogle = window.adsbygoogle || []).push({});
相关文章推荐
- 【备忘】基于Hadoop,Spark大数据技术的推荐系统算法实战教程
- 转发-摇摆少年梦的技术博客 【专注于Scala语言、Hadoop及Spark大数据处理技术】
- 2012 Hadoop与大数据技术大会
- 除Hadoop大数据技术外,还需了解的九大技术
- Hadoop大数据分析技术以及未来发展趋势
- 大数据Hadoop技术的发展历史与未来前景
- Hadoop2.0、YARN技术大数据视频教程
- 大数据入门之Hadoop技术优缺点
- Hadoop与大数据技术大会 2012
- HBTC2012 Hadoop与大数据技术大会,感受
- 大数据技术学习笔记:Hadoop集群搭建
- 2012 Hadoop与大数据技术大会有感
- 基于大数据技术之电视收视率企业项目实战(hadoop+Spark)
- hadoop大数据基础框架技术详解
- Hadoop与大数据技术大会2012PPT阅读笔记
- Hadoop2.0、YARN技术大数据视频教程
- 2012 Hadoop与大数据技术大会盛大开幕
- Hadoop与大数据技术大会2012PPT阅读笔记
- Hadoop2.0、YARN技术大数据视频教程
- 【备忘】基于Hadoop,Spark大数据技术的推荐系统算法实战教程