码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
Spark SQL1.2测试
Spark SQL 1.2背景:了解到HDP也能够支持Spark SQL,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理 虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据,数据源API通过Spark SQL提供了访....
分类:数据库   时间:2015-05-08 22:00:16    阅读次数:323
Spark parquet merge metadata问题
在spark sql 1.2.x当中存在一个问题: 当我们尝试在一个查询中访问多个parquet文件时,如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是name string, id int,另一个文件是id int, name string时,查询会报错,抛出metadata merge的异常。 在1.3当中,这个问题其实已经解决。那么在1.2....
分类:Web程序   时间:2015-05-05 14:32:34    阅读次数:263
Spark SQL
Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,...
分类:数据库   时间:2015-03-05 16:11:41    阅读次数:268
spark1.2.0版本SparkSQL使用parquet类型注意事项
在Spark1.2.0版本中是用parquet存储类型时注意事项:sql语句:select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果:2014-05 [B@4621484a [B@3311163e2014-0...
分类:数据库   时间:2014-12-23 19:17:22    阅读次数:326
Spark SQL之External DataSource外部数据源(一)示例
一、Spark SQL External DataSource简介  随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。  这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家...
分类:数据库   时间:2014-12-22 09:31:10    阅读次数:198
Spark SQL之External DataSource外部数据源(二)源码分析
Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。    在Spark SQL源代码的org/spark/sql/sources目...
分类:数据库   时间:2014-12-22 09:29:59    阅读次数:608
从NSM到Parquet:存储结构的衍化
为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进化历程。数据摆放结构数据摆放结构(data placement structure),顾名思义,就是数...
分类:其他好文   时间:2014-12-06 19:32:48    阅读次数:620
sparkSQL1.1入门之十:总结
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。 基本概念: SchemaRDD RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan 运行架构: sqlContext运行架构hiveContext运行架构 基本操作 原生RDD的操作parquet文件的操作j...
分类:数据库   时间:2014-10-23 12:29:53    阅读次数:298
Spark1.1.0 Spark SQL Programming Guide
Spark SQL Programming Guide OverviewGetting StartedData Sources RDDs Inferring the Schema Using ReflectionProgrammatically Specifying the Schema Parquet Files Loading Data Programmaticall...
分类:数据库   时间:2014-09-15 12:56:59    阅读次数:315
The striping and assembly algorithms from the Dremel paper( from github, project parquet-mr )
为了理解Dremel论文中给出的案例,笔者觉得对定义级别和重复级别这两个概念进行注释加强理解是有必要的,具体可以看Dremel那篇论文的图2和图3。 柱状数据的嵌套模式: 论文使用了以下的模型: message Document {      required int64 DocId;              optional group Links {       ...
分类:其他好文   时间:2014-08-11 15:07:02    阅读次数:328
121条   上一页 1 ... 10 11 12 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!