您的位置：首页 > 数据库

Spark SQL查询优化代码解析

2014-07-11 16:41 429 查看

Spark sql是Apache spark在即将发布的1.0版本的新特性。本文从SQL解析，分析器解析，查询优化到物理执行计划执行，结合spark core模块详细分析spark sql的实现细节。
Spark sql中，TreeNode贯穿始终，继承于TreeNode的有三类数据结构，分别为LogicalPlan，SparkPlan和Expression（LogicalPlan和SparkPlan继承于QueryPlan）。首先通过Sqlparser模块解析生成抽象语法树（AST），即未经过解析的逻辑计划，然后分析器（Anlysis）解析AST生成逻辑计划，再通过优化器（Optimizer）提供的规则（Rules）转化为优化过的逻辑计划（Optimized
Plan），最后利用策略（Strategies）计算代价选择具体物理执行算子，在合适的地方加上混洗操作（Exchange）生成物理计划得以执行。

sql parser是将expression及其每个孩子构造一个operator，将operator之间连接起来。
operator是未经解析的AST中的逻辑算子表示
expression是OR--AND--Expression+Expression的表示
和每个与表属性相关的标志被解析成了UnresovledAttribute(name: String)（在Analysis中要将name解析成Attribute，通过Catalog），生成的AST树为：
base--withfilter--withprojection--withdistinct--withhaving--withorder--withlimit

第一部分（待完善）。

第二部分，Spark sql中的查询优化（optimizer），将case样例组成的偏函数当做规则遍历整棵逻辑查询树，针对于暂时存在的三类规则（Limit合并、常量折叠和过滤下推，这三类规则中同时含有若干条规则），遍历的次数分别都为100次，判断前后两次相同即停止。下面针对于每类规则及每条规则做详细分析。

查询优化规则之Limit合并
1，Limit合并
场景比较少见，例如(本文例子均采用Catalyst的DSL书写)：
testRelation.select('a).limit(10).limit(5) optimizeTo testRelation.select('a).limit(5)
做法即将limit1中的Literal和它孩子limit2中的Literal做比较，小者保留，且将limit2的孩子作为limit3的孩子，返回limit3

查询优化规则之常量折叠
1，null值传递
在逻辑层将能够确定null值的表达式计算出来，避免到物理层需要对每个元祖都计算出相同的结果，例如：
IsNull(Literal(null)) as 'c1 optimizeTo Literal(null) as 'c1
当然还有其他的情况，如Equals(Literal(null, IntegerType), 1), 首先Equals会返回一个BooleanType，其次表达式中有一个null，最终可以优化为Literal(null, BooleanType)
做法即判断是什么操作类型，然后根据操作最终用null表示

2，常量折叠
所谓常量折叠即为Literal之间能够最大限度的计算出值，例如：
a, 只有Literal
testRelation.select(Literal(2)+Literal(3) as Symbol("2+3")).where(Literal(2)>Literal(1)) optimizeTo testRelation.select(Literal(5)) as Symbol("2+3").where(Literal(true))
只有Literal的表达式直接可以计算出最终结果用Literal表示。
做法即提前调用evaluation计算出结果，虽然在逻辑层，但是不涉及attribute references还是可以完成计算
b, 在arithmetic operations中含有Literals和attribute references
  testRelation.select(Literal(2)+Literal(3)+'a as Symbol("c1")) optimizeTo   testRelation.select(Literal(5)+'a as Symbol("c1"))
将除了attribute references的Literal都计算出来
做法是遍历整棵树的情况下对可以直接计算出的Literal做计算
c, 在predicates中含有Literals和attribute references
与b同理，只不过由arithmetic变为了predicate

3，布尔表达式简化
因为布尔表达式针对And和Or两种操作，会在某种情况下提前短路，例如：
testRelation.where(Literal(true) || 'a > Literal(1)) optimizeTo   testRelation.where(Literal(true))
做法较为简单，用case样例列举出针对于And和Or表达式的所有情况，相应情况直接输出Literal(true)、Literal(false)等。

4，filter简化
由于filter中可能出现不必要的逻辑，所以filter是可以简化的，直接看代码：
case Filter(Literal(true, BooleanType), child) => child 这条语句可以直接将filter省去，直接将filter的孩子当做孩子，因为filter此时选择率100%

5，Cast简化
此条规则还比较简单，直接上代码：
Cast(e, dataType) if e.dataType == dataType => e 当Cast需要转换的值相同的时候，直接用该值

6，还有一条查询优化规则是优化我实现的一个操作，这里就不拿出来讲了-_-||

查询优化规则之filter下推
1，filter合并
当多个filter连在一起的时候，可以用And连接谓词将他们合并（expression要给力才行），例如：
testRelation.select('a).where('a==1).where('a==2) optimizeTo   testRelation.where('a==1 && 'a==2).select('a)
做法同样也是在遍历树的情况下，直接上代码：case ff @ Filter(fc, nf @ Filter(nc, grandchild)) => Filter(And(nc, fc), grandchild)

2，project相关filter下推
顾名思义，如果project作为filter的叶子节点存在，project在物理层会处理更多的数据，但是如果将project和filter的位置互换，project在物理层处理的记录条数将变少。

3-1，join相关filter下推之 f @ Filter(filterCondition, Join(left, right, joinType, joinCondition))
同上，目的即为减少join在物理层处理的记录条数，对于join的filter下推，需要分inner join和outer join来考虑。
首先，将join相关的filter分为join谓词和where谓词，首先join谓词是写在* join * on后面的谓词（即为3-1标题中的joinCondition），where谓词是写在where后面的谓词（常见情况）。
a, 对于inner join来说，做法是将所有的相关谓词，无论是join谓词还是where谓词，都下推到join的两个孩子之下。但是涉及到两个表的条件，比如T1.a>T2.b。这样的条件无法作为filter推下去，只能放在join物理算子中，但是如果是hashjoin，因为hashjoin不适用于非等值，只能将其作为一个hashjoin之后的filter。将这个filter作为hashjoin的父亲。
做法是将所有的filter操作首先都放到join的顶端，在此需要用到filter的合并操作，然后将join顶端的所有filter操作重新分类，将相关filter谓词全部下推，而将类似于T1.a=T2.b的谓词用来构造两边的joinKeys。
b,对于outer join来说，新增两个概念，nonull端和null端，分情况讨论：
b1,对于full outer join，我们什么都不用做了
b2,对于left outer join，列表如下：

	nonull端	null端
join谓词	不能下推	下推
where谓词	下推	不能下推

下面我们举个例子来说明上面的情况（以下例子未给出数据，可以自己设计数据验证）：

eg. 对于右边的两张表：T1(a int, b int) T2(b int, c int)。
若为如右查询：select * from T1 left join T2 on T1.b=T2.b where T1.b > 2。在此query中有join谓词和where谓词，利用上文列表中的规则，将where谓词下推，而不要将join谓词下推，因为join谓词涉及nonull端。
若为如右查询：select * from T1 left join T2 on T1.b=T2.b where T2.b > 2。在此query中有join谓词和where谓词，两者皆不能下推，所以乖乖的做broadcast join然后再做两个谓词过滤。
若为如右查询：select * from T1 left join T2 on T2.b > 2。将T2.b > 2直接下推没有问题。
*若为如右查询：select * from T1 left join T2 on T1.b > 2。这个不能下推，否则违反nonull端的原The
table in an Outer Join that must return all rows
b3,对于right outer join，同b2。
3-2，join相关filter下推之子查询处理 f @ Join(left, right, joinType, joinCondition)
其实这条很简单，从代码可以看出，如果Join前面没有filter就优化不了吗？不是这样的，还可以只是Join，也就是没有where谓词，匹配的就是这个case了。（在此有个疑问，多层子查询能搞定吗？嵌套循环多次遍历可以解决，见代码Analyzer.scala中的case Subquery(_, child）=> child。

4，列剪枝ColumnPruning
减少不必要的Column的读取，有利于接近root节点的操作减少处理的数据量
a, Aggregation的输出属性被包含于它孩子的属性的时候，在Aggregation和它孩子中间加一个project操作，观一段代码：
eg. case a @ Aggregate(_, _, child) if (child.outputSet -- a.references).nonEmpty => a.copy(child = Project(a.references.toSeq, child))，这段代码已经相当清楚
b, Join的左孩子和右孩子可能需要剪枝，因为左孩子和右孩子的输入属性之和比做完之后的属性多，所以要向两个孩子都插入一个对应的project操作
c, 相邻的两个Project完全可以合并
d, 消除不必要的Project

第三部分，Spark sql和Spark core的结合：
spark sql逻辑计划转化为物理执行计划在QueryPlanner中有apply函数，将策略strategies用来生成物理算子，生成的时候，每个logicalPlan会生成若干个physicalPlan。（待完善）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航