您的位置:首页 > 运维架构

Hadoop产生原因

2016-11-29 15:41 197 查看
对于Hadoop产生的原因,我们从以下三个方面谈起:传统大规模系统的问题
(1)传统大规模计算1.传统计算受到处理器限制:相对较小的数据量有很多复杂的处理。 2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足 (2)分布式系统 1.更好的方案:使用更多的机器来处理单个作业 2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂);有限的带宽 3.数据瓶颈:传统系统中,数据存储在中央存储;数据在运行时拷贝到处理器;适合限量的数据 然而,现代系统有很多数据,我们需要寻求新的方法来处理这些数据:Hadoop就应运而生,引入了一个彻底的新方法就是分布式计算,当数据存储时分布数据,而且在数据所在的位置运行计算。Hadoop自身优势
(1) Hadoop的源起: 1.思想起源:Google 2.Hadoop之父:Doug Cutting 3.Lucene->Nutch->Hadoop 4.实现云计算的事实标准开源软件 5.包含数十个具有强大生命力的子项目 6.已经能在上万节点上运行,处理数据量和排序时间不断打破世界纪录 (2) Hadoop核心设计1.当数据加载的时候分片成块 2.Map任务通常作用于单个块 3.Master程序管理任务

(3) Hadoop核心概念 1.应用通过高级语言代码来写 2.节点之间尽可能少的通信 3.数据提前分布式存储 4.把计算放到数据所在节点运行 5.数据通过多副本存储来提供可靠性和高可用性 6.Hadoop是可扩展并且容错的三.Hadoop适用背景(1)大数据的处理模式:主要的处理模式可以分为流处理(stream processing)和批处理(batch processing):批处理是先存储后处理(store-process);流处理则是直接处理(straight-through process) (2)你可以用Hadoop做什么?


(3)数据从哪里来? 1.科学医疗影像,传感器数据,基因测序,天气数据,卫星 2.工业金融,制药,制造业,保险,网游,能源,零售数据 3.资产销售数据,客户行为,产品数据库,账户数据等 4.系统数据日志文件,健康和状态,活动信息流,网络消息,web分析,入侵检测和垃圾邮件过滤 (4)常见的Hadoop分析类型ETL;文本挖掘;索引构建;图创建和分析;模式识别;协同过滤; 预测模型;情感分析;风险评估(5)使用Hadoop分析的好处实现以前不可能或不现实的分析;更低的成本;更少的时间;更多的灵活性;近线性的扩展性以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因,对于更多想要学习和了解大数据的同学来说,这是一个很好的开端;平常大家可以多关注一些大数据的资讯,多看一些大数据相关的书籍,我平常喜欢关注如大数据cn这些微信公众号,里面对于大数据的资讯介绍还是不错的,大家也可以看看。总之,希望我们每一个人都踏踏实实从基础做起,不断巩固提高,一定会取得进步的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息