1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装spa... ...
分类:
其他好文 时间:
2017-12-03 19:55:38
阅读次数:
372
一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: ...
分类:
其他好文 时间:
2017-10-17 15:28:28
阅读次数:
342
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 ...
分类:
其他好文 时间:
2017-10-16 19:43:52
阅读次数:
402
1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp ...
分类:
其他好文 时间:
2017-09-07 14:51:43
阅读次数:
169
http://dongxicheng.org/mapreduce-nextgen/columnar-storage-parquet-and-orc/ 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数 ...
分类:
其他好文 时间:
2017-08-14 19:05:31
阅读次数:
165
1,如果写sql语句能实现的操作,最好就不要用dataframe了;spark会自己做优化,性能和稳定性都会比较高 2,中间过程存成parquet文件而不是HIVE表 3,能用reduceByKey就不要用groupByKey 4,在数据量很大或者存在倾斜的时候,可以考虑先repartition后在 ...
分类:
其他好文 时间:
2017-08-03 00:53:49
阅读次数:
221
目录 · 概述 · 原理 · 组成 · 执行流程 · 性能 · API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation · 性能调优 ...
分类:
数据库 时间:
2017-07-31 09:58:34
阅读次数:
395
Parquet Parquet is a columnar storage format for Hadoop. Parquet is designed to make the advantages of compressed, efficient colunmar data representat ...
分类:
其他好文 时间:
2017-07-30 13:57:11
阅读次数:
309
Kudu的背景 Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构, Hbase:实现快速插入和修改,对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。 HDF ...
分类:
其他好文 时间:
2017-07-20 17:29:13
阅读次数:
381
import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.Random; import org.apache.... ...
分类:
编程语言 时间:
2017-07-12 17:48:00
阅读次数:
1517