Spark SQL 1.2背景:了解到HDP也能够支持Spark SQL,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理 虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据,数据源API通过Spark SQL提供了访....
分类:
数据库 时间:
2015-05-08 22:00:16
阅读次数:
323
在spark sql 1.2.x当中存在一个问题:
当我们尝试在一个查询中访问多个parquet文件时,如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是name string, id int,另一个文件是id int, name string时,查询会报错,抛出metadata merge的异常。
在1.3当中,这个问题其实已经解决。那么在1.2....
分类:
Web程序 时间:
2015-05-05 14:32:34
阅读次数:
263
Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,...
分类:
数据库 时间:
2015-03-05 16:11:41
阅读次数:
268
在Spark1.2.0版本中是用parquet存储类型时注意事项:sql语句:select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果:2014-05 [B@4621484a [B@3311163e2014-0...
分类:
数据库 时间:
2014-12-23 19:17:22
阅读次数:
326
一、Spark SQL External DataSource简介 随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。 这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家...
分类:
数据库 时间:
2014-12-22 09:31:10
阅读次数:
198
Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。 在Spark SQL源代码的org/spark/sql/sources目...
分类:
数据库 时间:
2014-12-22 09:29:59
阅读次数:
608
为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进化历程。数据摆放结构数据摆放结构(data placement structure),顾名思义,就是数...
分类:
其他好文 时间:
2014-12-06 19:32:48
阅读次数:
620
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
基本概念:
SchemaRDD
RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan
运行架构:
sqlContext运行架构hiveContext运行架构
基本操作
原生RDD的操作parquet文件的操作j...
分类:
数据库 时间:
2014-10-23 12:29:53
阅读次数:
298
Spark SQL Programming Guide
OverviewGetting StartedData Sources
RDDs
Inferring the Schema Using ReflectionProgrammatically Specifying the Schema
Parquet Files
Loading Data Programmaticall...
分类:
数据库 时间:
2014-09-15 12:56:59
阅读次数:
315
为了理解Dremel论文中给出的案例,笔者觉得对定义级别和重复级别这两个概念进行注释加强理解是有必要的,具体可以看Dremel那篇论文的图2和图3。
柱状数据的嵌套模式:
论文使用了以下的模型:
message Document {
required int64 DocId;
optional group Links {
...
分类:
其他好文 时间:
2014-08-11 15:07:02
阅读次数:
328