码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
hive on spark配置
1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装spa... ...
分类:其他好文   时间:2017-12-03 19:55:38    阅读次数:372
大数据:Parquet文件存储格式
一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: ...
分类:其他好文   时间:2017-10-17 15:28:28    阅读次数:342
大数据:Hive - ORC 文件存储格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 ...
分类:其他好文   时间:2017-10-16 19:43:52    阅读次数:402
hive压缩
1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp ...
分类:其他好文   时间:2017-09-07 14:51:43    阅读次数:169
Parquet and ORC
http://dongxicheng.org/mapreduce-nextgen/columnar-storage-parquet-and-orc/ 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数 ...
分类:其他好文   时间:2017-08-14 19:05:31    阅读次数:165
spark的一些经验
1,如果写sql语句能实现的操作,最好就不要用dataframe了;spark会自己做优化,性能和稳定性都会比较高 2,中间过程存成parquet文件而不是HIVE表 3,能用reduceByKey就不要用groupByKey 4,在数据量很大或者存在倾斜的时候,可以考虑先repartition后在 ...
分类:其他好文   时间:2017-08-03 00:53:49    阅读次数:221
Spark SQL笔记——技术点汇总
目录 · 概述 · 原理 · 组成 · 执行流程 · 性能 · API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation · 性能调优 ...
分类:数据库   时间:2017-07-31 09:58:34    阅读次数:395
<Parquet><Physical Properties>
Parquet Parquet is a columnar storage format for Hadoop. Parquet is designed to make the advantages of compressed, efficient colunmar data representat ...
分类:其他好文   时间:2017-07-30 13:57:11    阅读次数:309
Spark Kudu 结合
Kudu的背景 Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构, Hbase:实现快速插入和修改,对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。 HDF ...
分类:其他好文   时间:2017-07-20 17:29:13    阅读次数:381
java 读写Parquet格式的数据 Parquet example
import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.Random; import org.apache.... ...
分类:编程语言   时间:2017-07-12 17:48:00    阅读次数:1517
121条   上一页 1 ... 5 6 7 8 9 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!