流式处理、实时计算、Add-hoc、离线计算、实时查询等区别
2016-11-17 16:15
302 查看
流式处理、实时计算、Add-hoc、离线计算、实时查询 这几个概念在数据处理中经常提高,这里简单的梳理一下他们的区别。
流处理、实时计算属于一类的,即计算在数据变化时,都是在数据的计算实时性要求比较高的场景,能够实时的响应结果,一般在秒级,Yahoo的S4,twiter的storm都属于流处理和实时计算一类的。
Add-hoc和实时查询都计算在query时,实时查询是响应可能千变万化的结果,无法事先通过枚举得到并存储起来,需要根据用户输入的不同实时查询出不同的响应,对实时性要求比较高,比如hbase,内存数据库的查询redis、mongodb等;Add-hoc属于对实时性要求不高的场景。Add-hoc是针对各种临时的、自定义的需求采取的解决方案,比如hive,需求是不确定的,可以通过编写sql来应对各种问题;最近出现的基于hadoop的实时查询Impala,解决了实时性的要求,比hive效率。
离线计算一般是批量处理数据库的过程,比如利用hadoop的mapreduce;内存计算spark类似于mapreduce, 不过是数据是放在在内存中,效率比较高。
流处理、实时计算属于一类的,即计算在数据变化时,都是在数据的计算实时性要求比较高的场景,能够实时的响应结果,一般在秒级,Yahoo的S4,twiter的storm都属于流处理和实时计算一类的。
Add-hoc和实时查询都计算在query时,实时查询是响应可能千变万化的结果,无法事先通过枚举得到并存储起来,需要根据用户输入的不同实时查询出不同的响应,对实时性要求比较高,比如hbase,内存数据库的查询redis、mongodb等;Add-hoc属于对实时性要求不高的场景。Add-hoc是针对各种临时的、自定义的需求采取的解决方案,比如hive,需求是不确定的,可以通过编写sql来应对各种问题;最近出现的基于hadoop的实时查询Impala,解决了实时性的要求,比hive效率。
离线计算一般是批量处理数据库的过程,比如利用hadoop的mapreduce;内存计算spark类似于mapreduce, 不过是数据是放在在内存中,效率比较高。
相关文章推荐
- 梳理一下流式处理、实时计算、Add-hoc、离线计算、实时查询等区别
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 观点:流式计算推动实时处理商业变革
- 离线计算,实时计算和流式计算的概念区分
- 实时计算、流式处理系统简介与简单分析 .
- 流式计算推动实时处理商业变革
- 实时流式数据处理和大规模离线数据处理
- 实时计算、流式处理系统简介与简单分析
- 实时计算、流式处理系统简介和资料搜集
- 流式计算、实时计算和离线计算
- 实时计算和流式计算的区别
- 实时流式数据处理和大规模离线数据处理
- storm实时流式计算框架集群搭建过程
- 流式计算 galaxy & 实时多维分析 garuda
- 实时流式计算框架Storm 0.9.0发布通知(中文版)
- 从Storm和Spark 学习流式实时分布式计算的设计
- 从Storm和Spark 学习流式实时分布式计算的设计
- 实时计算,流数据处理系统简介与简单分析