大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)
2017-01-26 16:37
417 查看
[align=left]
大数据分析处理架构图[/align]
[align=left]数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;[/align]
[align=left]计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。[/align]
相关文章推荐
- HADOOP离线分析+实时分析框架使用技术框架Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- HADOOP大数据离线分析+实时分析框架;Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- [置顶] HADOOP大数据离线分析+实时分析框架;Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- 使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【公安大数据】
- Twitter Storm 实时数据处理框架分析总结
- 实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣
- Storm,Trident,Spark Streaming,Samza和Flink主流流处理框架比较
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- 自己标注(不注意坑不少)-Spark+Kafka构建实时分析Dashboard案例——步骤三:Spark Streaming实时处理数据
- Twitter Storm 实时数据处理框架分析总结
- 流式大数据处理 (实时)的三种框架:Storm,Spark和Samza
- Twitter Storm 实时数据处理框架分析总结
- 流式大数据处理的三种框架:Storm,Spark和Samza
- 流式大数据处理的三种框架:Storm,Spark和Samza
- 流式大数据处理的三种框架:Storm,Spark和Samza
- Apache Storm 与 Spark:对实时处理数据,如何选择【翻译】