您的位置:首页 > 大数据 > Hadoop

细谈大数据时代最好的框架,是不是非Hadoop莫属

2019-03-06 20:40 197 查看

提到大数据,很多同学会想到Hadoop技术。大家都知道,Hadoop是Apache的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,HDFS(Hadoop分布式文件系统),MapReduce、Hbase、Zookeeper,hive等组成了一个Hadoop生态系统。

本文主要以Hadoop为主,细谈大数据时代最好的框架是不是hadoop,通过几个问题来看看,具体如下:

一、为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?

更加智能,hadoop的框架设计比传统数据仓库工具要复杂,相对来说分析处理数据的过程速度更快更好,成本来说也要低。

二、更智能&更大的数据中心架构与传统的数据仓库架构有何不同?

Hadoop是一个生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象层,而Spark和Impala等其他工具则是来自MapReduce的改进架构/设计,用于显著提高的延迟以支持近实时(即NRT)和实时处理。比起传统ETL批处理更智能分析。

三、相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?

随着数据量和复杂性的增加,并行处理,内存密集型处理框架。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载到Hadoop工具(如Spark和Impala)来补足数据仓库解决方案,从而更高效地并行处理大数据。这也将释放数据仓库资源。更好的灵活性。通常业务需求的改变,也需要对架构和报告进行更改。基于Hadoop的解决方案不仅可以灵活地处理不断发展的模式,还可以处理来自不同来源,如社交媒体,应用程序日志文件,image,PDF和文档文件的半结构化和非结构化数据。甚者这里面有些数据通常在数据仓库中不可得。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据入门之Hadoop基础学习
http://www.duozhishidai.com/article-12891-1.html
Spark 和 Hadoop之间,主要有什么联系
http://www.duozhishidai.com/article-9781-1.html
大数据工程师培训,需要学习的有哪些课程?
http://www.duozhishidai.com/article-15081-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: