背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 ...
分类:
其他好文 时间:
2016-12-21 20:30:38
阅读次数:
322
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:
其他好文 时间:
2016-12-04 09:40:28
阅读次数:
149
海量数据存储 推荐用 Parquet列式存储 替代 HDFS上的文件 下面两篇文章讲解 用Parquet列式存储来存储数据,主要是提高查询性能、和存储压缩 《Spark SQL下的Parquet使用最佳实践和代码实战》http://blog.csdn.net/sundujing/article/de ...
分类:
数据库 时间:
2016-11-24 18:35:49
阅读次数:
250
一、概述 spark2.0做出的改变大家可以参考官网以及其他资料,这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客户端操作会有些许不同,具体如下文所述二、spark额外配置 1.正常配置不再赘述,这里如果需要读取MySQL数据,则需要在..
分类:
数据库 时间:
2016-11-22 15:13:40
阅读次数:
655
结合:存储+压缩(snappy) 1.orc orc tblproperties("orc.compress"="SNAPPY") 2.parquet hive shell中:set parquet.compression=SNAPPY 因为找不到。 ...
分类:
其他好文 时间:
2016-11-16 22:03:59
阅读次数:
236
1.存储格式 textfile rcfile orc parquet 2.存储方式 按行存储 -》textfile 按列存储 -》parquet 3.压缩比 4.存储textfile的原文件 并加载数据 5.大小 6.保存为tectfile,经过mapreduce 7.结果的大小 8.保存为orc格 ...
分类:
其他好文 时间:
2016-11-15 23:41:32
阅读次数:
253
测试环境 节点: 2 台主节点,6台计算节点 机器配置: 16个物理核 128G内存 12*3T磁盘 操作系统: redhat 7.2 版本: CDH 5.7.1-1.cdh5.7.1.p0.11 impala_kudu 2.7.0-1.cdh5.9.0.p0.23 kudu 0.9.1-1.kud ...
分类:
其他好文 时间:
2016-09-01 11:06:29
阅读次数:
262
首先自己的 blog 好久没有写技术相关的东西了,今天又动笔了,好高兴!然后转载请注明出处。最后开始正题: 原文:Dremel made simple with Parquet | Twitter Engineering Blog Google 对于传说中3秒查询 1 PB 数据的 Dremel,有 ...
分类:
其他好文 时间:
2016-08-24 18:57:23
阅读次数:
187
前言之前一直考虑更换impala的文件存储格式为parquet,但是没有立即使用,最近又做了一些测试,看看parquet是否真的有用。在测试的时候顺便测了一下compute语句的效果,一起作为参考。下面抽出一个小业务的部分测试结果来展示。测试准备库名和表名当然不是真的。测试范围:
文件格式:parquet和text
compute语句的影响
测试用表:
表名
行数
字段数
物理存储大...
分类:
其他好文 时间:
2016-08-21 12:33:53
阅读次数:
211
前言测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。在impala中直接建内部表。测试
存储格式
压缩格式
文件大小
建表时间 textfile
none
3.0 G
38.74s
parquet
none
1.5 G
32.33s
parquet
snappy
709.3 M
31.71...
分类:
其他好文 时间:
2016-08-21 12:32:15
阅读次数:
210