Spark SQL 中Catalyst的核心优化器Optimizer源码剖析...
分类:
数据库 时间:
2014-07-26 02:17:36
阅读次数:
390
Spark SQL Catalyst的核心类库TreeNode详解,配有实例,图文并茂。...
分类:
数据库 时间:
2014-07-24 23:37:23
阅读次数:
895
本文详细介绍了Spark SQL的Catalyst里,Analyzer是如何Sql parser的解析的UnResolved逻辑计划,进行resolve的。...
分类:
数据库 时间:
2014-07-22 14:49:52
阅读次数:
396
本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成LogicalPlan的。...
分类:
数据库 时间:
2014-07-19 11:15:13
阅读次数:
389
Catalyst定位
其他系统如果想基于Spark做一些类sql、标准sql甚至其他查询语言的查询,需要基于Catalyst提供的解析器、执行计划树结构、逻辑执行计划的处理规则体系等类体系来实现执行计划的解析、生成、优化、映射工作。
对应上图中,主要是左侧的TreeNodelib及中间三次转化过程中涉及到的类结构都是Catalyst提供的。至于右侧物理执行计划映射生成过程,物理执行计划基于成本的优化模型,具体物理算子的执行都由系统自己实现。
Catalyst现状
在解析器方面提供的是一个简单的scala...
分类:
数据库 时间:
2014-07-16 17:34:38
阅读次数:
391
早在Spark Submit 2013里就有介绍到Spark SQL,不过更多的是介绍Catalyst查询优化框架。经过一年的开发,在今年Spark Submit 2014上,Databricks宣布放弃Shark 的开发,而转投Spark SQL,理由是Shark继承了Hive太多,优化出现了瓶颈,如图:
今天把Spark最新的代码签了下来,测试了一下:
1、编译Spar...
分类:
数据库 时间:
2014-07-03 16:06:04
阅读次数:
534