您的位置：首页 > 数据库

spark sql的应用场景

2015-11-02 22:45 323 查看

最近一直在银行做历史数据平台的项目，目前整个项目处于收尾的阶段，也好有时间整理下在项目中的一些收获。

该历史数据平台使用spark+Nosql架构了，Nosql提供了海量数据的实时查询，而spark提供了sql支持，最开始给客户设计方案的时候，对spark sql也不是很熟悉，只知道它的thriftserver可以支持JDBC，在做方案的设计的使用,Spark SQL提供了对外查询的接口。在测试中发现，spark sql的sql是一个执行完成后才能执行另一个，就是换了fair这种作业调度方式，整个集群的并发还是很慢。

spark是一个分布式计算框架，从他的作业调度可以看到http://spark.apache.org/docs/latest/job-scheduling.html，它的资源分配粒度很粗，CPU的核数进行分配的，集群的CPU资源是有限的，同时spark sql资源计算时需要把大量数据加载到内存中，需要消耗集群大量的内存资源，再做shuffle的时候，又需要消耗大量的网络IO和磁盘IO, 如果同时多个job执行，那么每个job获得资源要么少，要么需要排队。而不能像关系型数据库那么提供高并发的服务。

我咨询了一下做NoSQL开发的哥们，NoSQL中没有做任务调度，但是每次查询的速度很快，对请求处理很块，这样并发就好了。如果遇到执行慢的请求，也会拖累查询速度，毕竟硬件资源有限，当然目前他们也在做资源调度这一块。

通过上面的分析，Spark SQL只是一个批处理的工具，所以如果用户比较少，并发要求不高，可以用spark sql，如果你想像关系型数据库那样提供对外服务，就选错工具了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航