Lamda架构-分析日志流水线
2017-03-28 09:28
281 查看
Lamda架构
前言:日志分析中既有离线大规模需求,也有实时性需求,因此需要采用Lamda架构(目的是为大数据分析应用程序提供一个低响应延迟的组合数据环境)构建日志分析流水线。Lamda组成部分
批处理层通过hadoop,spark等作为批处理层的处理工具,HDFS,HBase等作为数据持久化系统。
服务层
用于加载和实现数据库中的批处理视图,便于用户查询。不一定需要随机写,但是需要支持批更新和随机读。采用如ElephantDB,Voldemort
快速处理层
主要处理实时和服务层更新造成的高延迟补偿,利用流处理系统(如Storm,S4,SparkStreaming)和随机读写数据存储库来实现实时视图(HBase)
Lamda数据分析架构
日志分析流水线整理架构
实时日志分析流水线步骤:
数据采集 采用Flume NG进行数据采集数据汇总和转发 Flume将数据转发汇总到实时消息系统kafka
数据处理 SparkSteaming进行实时数据处理
结果呈现 采用Flask作为可视化呈现工具
离线日志分析流水步骤:
数据存储 通过Flume将数据转储至HDFS数据处理 通过SparkSQL进行数据预处理
结果呈现 结果汇总存储到mysql最后通过Flask,tableau进行结果呈现
相关文章推荐
- spark大数据分析实战案列1学习 (lamda架构日志分析流水线)
- spark学习之Lambda架构日志分析流水线
- spark学习之Lambda架构日志分析流水线
- 分布式实时日志分析解决方案ELK部署架构
- 架构之日志分析平台
- Storm日志分析调研及其实时架构
- 某网站日志分析系统的项目架构
- 分布式实时日志分析解决方案ELK部署架构
- 【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析
- 【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析
- 人人网数据服务平台:基于日志分析的数据系统架构-严岩
- 【处理器体系架构系列】ARM流水线关键技术分析与代码优化
- ELK 实现 Java 分布式系统日志分析架构
- 分布式实时日志分析解决方案ELK部署架构
- 架构之ELK日志分析系统
- Oracle内存全面分析(5)-1Oracle 的内存架构组成_1SGA.5重做日志缓存、 大池、Java池、Streams Pool
- Ext4文件系统架构分析(三) ——目录哈希、扩展属性与日志
- 日志实时分析架构
- 架构之ELK日志分析系统