上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。
概念:
Logi...
分类:
数据库 时间:
2014-10-27 12:53:06
阅读次数:
616
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
基本概念:
SchemaRDD
RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan
运行架构:
sqlContext运行架构hiveContext运行架构
基本操作
原生RDD的操作parquet文件的操作j...
分类:
数据库 时间:
2014-10-23 12:29:53
阅读次数:
298
sparkSQL1.1对数据的查询分成了2个分支:sqlContext 和 hiveContext。
在sqlContext中,sparkSQL可以使用SQL-92语法对定义的表进行查询,表的源数据可以来自:
RDDparquet文件json文件
在hiveContext中,sparkSQL可以使用HQL语法,对hive数据进行查询,sparkSQ...
分类:
数据库 时间:
2014-09-10 09:38:00
阅读次数:
406
定制spark让sql更简单,上个版本的start.scala用的是HiveContext,这个是SQLContext的,不需编译。...
分类:
数据库 时间:
2014-07-13 20:44:21
阅读次数:
330