说明:此方案已经我们已经运行1年。 1、场景描述: 我们对客户登录日志做了数据仓库,但实际业务使用中有一些个共同点, A 需要关联维度表 B 最终仅取某个产品一段时间内的数据 C 只关注其中极少的字段 基于以上业务,我们决定每天定时统一关联维度表,对关联后的数据进行另外存储。各个业务直接使用关联后的 ...
分类:
其他好文 时间:
2016-05-08 11:40:04
阅读次数:
195
本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet,并使用Text存储格式做对比,设置了星状模型、扁平式宽表,嵌套式宽表等多种场景进行测试,以供感兴趣的同学参考。...
分类:
其他好文 时间:
2016-04-19 19:41:57
阅读次数:
236
load、save方法的用法 .save("hdfs://spark1:9000/peopleName_java"); parquet数据源: -》加载parquet数据 DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:900 ...
分类:
数据库 时间:
2016-04-04 18:09:54
阅读次数:
287
1. ?最初创建Parquet的目的是:要在Hadoop生态系统中,充分利用数据压缩、有效列式存储的优势。Parquet面向复杂的嵌套数据结构,使用Dremel中的record shredding and assembly算法,其与简单命名空间嵌套的...
分类:
其他好文 时间:
2015-10-16 13:43:34
阅读次数:
674
转载自董的博客 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。 在互联网大数据应用场景下,大部分情况下,数据量很...
分类:
其他好文 时间:
2015-09-05 17:43:33
阅读次数:
259
SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成临时表,然后通过SQL语...
分类:
数据库 时间:
2015-08-31 10:08:08
阅读次数:
377
简介 ????????Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。 ?????...
分类:
其他好文 时间:
2015-06-17 11:45:57
阅读次数:
159
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙 spark sql 三个核心部分: 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and?Parquet). 2. ?可以让你通过SQL ,spark ...
分类:
数据库 时间:
2015-05-19 15:07:52
阅读次数:
369
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙
spark sql 三个核心部分:
1. 可以加载各种结构化数据源(e.g., JSON, Hive, and Parquet).
2. 可以让你通过SQL ,spark 内部程序或者外部工具,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau
3.当...
分类:
数据库 时间:
2015-05-19 14:49:14
阅读次数:
297
val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json")df.select("name","age").save("/opt/test/namesAndAges...
分类:
数据库 时间:
2015-05-18 16:07:42
阅读次数:
355