码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
Parquet与ORC:高性能列式存储格式(收藏)
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 ...
分类:其他好文   时间:2016-12-21 20:30:38    阅读次数:322
分布式技术一周技术动态 2016.12.04
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:其他好文   时间:2016-12-04 09:40:28    阅读次数:149
Parquet + Spark SQL
海量数据存储 推荐用 Parquet列式存储 替代 HDFS上的文件 下面两篇文章讲解 用Parquet列式存储来存储数据,主要是提高查询性能、和存储压缩 《Spark SQL下的Parquet使用最佳实践和代码实战》http://blog.csdn.net/sundujing/article/de ...
分类:数据库   时间:2016-11-24 18:35:49    阅读次数:250
基于spark2.0整合spark-sql + mysql + parquet + HDFS
一、概述 spark2.0做出的改变大家可以参考官网以及其他资料,这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客户端操作会有些许不同,具体如下文所述二、spark额外配置 1.正常配置不再赘述,这里如果需要读取MySQL数据,则需要在..
分类:数据库   时间:2016-11-22 15:13:40    阅读次数:655
存储加压缩
结合:存储+压缩(snappy) 1.orc orc tblproperties("orc.compress"="SNAPPY") 2.parquet hive shell中:set parquet.compression=SNAPPY 因为找不到。 ...
分类:其他好文   时间:2016-11-16 22:03:59    阅读次数:236
关于hive的存储格式
1.存储格式 textfile rcfile orc parquet 2.存储方式 按行存储 -》textfile 按列存储 -》parquet 3.压缩比 4.存储textfile的原文件 并加载数据 5.大小 6.保存为tectfile,经过mapreduce 7.结果的大小 8.保存为orc格 ...
分类:其他好文   时间:2016-11-15 23:41:32    阅读次数:253
[原创]kudu vs parquet, impala vs spark Benchmark
测试环境 节点: 2 台主节点,6台计算节点 机器配置: 16个物理核 128G内存 12*3T磁盘 操作系统: redhat 7.2 版本: CDH 5.7.1-1.cdh5.7.1.p0.11 impala_kudu 2.7.0-1.cdh5.9.0.p0.23 kudu 0.9.1-1.kud ...
分类:其他好文   时间:2016-09-01 11:06:29    阅读次数:262
[翻译] Dremel made simple with Parquet
首先自己的 blog 好久没有写技术相关的东西了,今天又动笔了,好高兴!然后转载请注明出处。最后开始正题: 原文:Dremel made simple with Parquet | Twitter Engineering Blog Google 对于传说中3秒查询 1 PB 数据的 Dremel,有 ...
分类:其他好文   时间:2016-08-24 18:57:23    阅读次数:187
Impala实践之十一:parquet性能测试
前言之前一直考虑更换impala的文件存储格式为parquet,但是没有立即使用,最近又做了一些测试,看看parquet是否真的有用。在测试的时候顺便测了一下compute语句的效果,一起作为参考。下面抽出一个小业务的部分测试结果来展示。测试准备库名和表名当然不是真的。测试范围: 文件格式:parquet和text compute语句的影响 测试用表: 表名 行数 字段数 物理存储大...
分类:其他好文   时间:2016-08-21 12:33:53    阅读次数:211
Impala实践之十二:impala压缩方式测试
前言测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。在impala中直接建内部表。测试 存储格式 压缩格式 文件大小 建表时间 textfile none 3.0 G 38.74s parquet none 1.5 G 32.33s parquet snappy 709.3 M 31.71...
分类:其他好文   时间:2016-08-21 12:32:15    阅读次数:210
121条   上一页 1 ... 7 8 9 10 11 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!