前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:
hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:...
分类:
数据库 时间:
2014-09-10 09:39:40
阅读次数:
378
sparkSQL1.1对数据的查询分成了2个分支:sqlContext 和 hiveContext。
在sqlContext中,sparkSQL可以使用SQL-92语法对定义的表进行查询,表的源数据可以来自:
RDDparquet文件json文件
在hiveContext中,sparkSQL可以使用HQL语法,对hive数据进行查询,sparkSQ...
分类:
数据库 时间:
2014-09-10 09:38:00
阅读次数:
406
spark1.1相较于spark1.0,最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL,在真正意义上进入了SQL时代。下面先简单介绍其使用,限于时间关系,以后再附上源码分析。
1:ThriftServer和CLI的命令参数
A:令人惊讶的CLI...
分类:
数据库 时间:
2014-09-09 12:39:38
阅读次数:
387
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html
Spark实战高手之路 系列书籍 http://down.51cto.com/tag-Spark%E6%95%99...
分类:
数据库 时间:
2014-08-14 10:32:38
阅读次数:
218
以ANALYZE为例描述ANALYZE在Hive中的使用方法详见:https://cwiki.apache.org/confluence/display/Hive/StatsDev#StatsDev-ExistingTablesANALYZE在Hive中使用简单介绍一张表有4个分区:Partitio...
分类:
数据库 时间:
2014-08-11 14:23:32
阅读次数:
428
1.准备数据employee.txt1001,Gong Shaocheng,11002,Li Dachao,11003,Qiu Xin,11004,Cheng Jiangzhong,21005,Wo Binggang,3将数据放入hdfs[root@jfp3-1 spark-studio]# hdf...
分类:
数据库 时间:
2014-06-29 00:17:54
阅读次数:
415