延云YDB基于spark进行数据分析的一种新方式
2017-03-12 14:40
656 查看
YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。
YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。
1:当场,就是当场去查询,现场 随意、即兴 查询。
2:响应时间要求为几秒才能称为即席。
即席分析与普通分析的区别
1.普通的应用分析是定制开发的,大多是预先计算好的。
2.即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。
2.目前在使用SOLR、ES做全文检索,觉得solr与ES提供的分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后SOLR与ES变得不稳定,在掉片与均衡中不断恶性循环,不能自动恢复服务,运维人员需经常半夜起来重启集群的情况。
3.基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。
4.需要对用户画像行为类数据做多维定向分析的用户。
5.需要对大量的UGC(User Generate Content)数据进行检索的用户。
6.当你需要在大数据集上面进行快速的,交互式的查询时。
7.当你需要进行数据分析,而不只是简单的键值对存储时。
8.当你想要分析实时产生的数据时。
YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。
YDB的主要特性
为探索性分析与即席分析而设计
YDB的即席分析(Ad Hoc)概念的解释1:当场,就是当场去查询,现场 随意、即兴 查询。
2:响应时间要求为几秒才能称为即席。
即席分析与普通分析的区别
1.普通的应用分析是定制开发的,大多是预先计算好的。
2.即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。
YDB适合的行业
在公安系统的-典型的场景
齐全的功能
卓越的排序性能
按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为BlockSort。卓越的检索与分析性能(相比Spark的性能提升倍数)
与ORACLE性能对比
|
查布控场景性能
4000哪些用户适合使用YDB?
1.传统关系型数据,已经无法容纳更多的数据,查询效率严重受到影响的用户。2.目前在使用SOLR、ES做全文检索,觉得solr与ES提供的分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后SOLR与ES变得不稳定,在掉片与均衡中不断恶性循环,不能自动恢复服务,运维人员需经常半夜起来重启集群的情况。
3.基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。
4.需要对用户画像行为类数据做多维定向分析的用户。
5.需要对大量的UGC(User Generate Content)数据进行检索的用户。
6.当你需要在大数据集上面进行快速的,交互式的查询时。
7.当你需要进行数据分析,而不只是简单的键值对存储时。
8.当你想要分析实时产生的数据时。
企业级特性:稳定,可靠,易用
相关文章推荐
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 延云YDB基于spark进行数据分析的一种新方式
- 基于Spark和Hive进行的豆瓣电影数据分析
- 《Spark机器学习》笔记——基于MovieLens数据集使用Spark进行电影数据分析
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- Android 存储文件方式之一---SharedPreferences 内容提供者,以xml 的方式进行数据 存储。是一种轻量级的文件数据存储