搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

Parquet与ORC：高性能列式存储格式(收藏)

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产 ...

分类：其他好文时间：2016-12-21 20:30:38 阅读次数：322

分布式技术一周技术动态 2016.12.04

分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持(Hive、Impala、D ...

分类：其他好文时间：2016-12-04 09:40:28 阅读次数：149

Parquet + Spark SQL

海量数据存储推荐用 Parquet列式存储替代 HDFS上的文件下面两篇文章讲解用Parquet列式存储来存储数据，主要是提高查询性能、和存储压缩《Spark SQL下的Parquet使用最佳实践和代码实战》http://blog.csdn.net/sundujing/article/de ...

分类：数据库时间：2016-11-24 18:35:49 阅读次数：250

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述 spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客户端操作会有些许不同，具体如下文所述二、spark额外配置 1.正常配置不再赘述，这里如果需要读取MySQL数据，则需要在..

分类：数据库时间：2016-11-22 15:13:40 阅读次数：655

存储加压缩

结合：存储+压缩（snappy） 1.orc orc tblproperties("orc.compress"="SNAPPY") 2.parquet hive shell中：set parquet.compression=SNAPPY 因为找不到。 ...

分类：其他好文时间：2016-11-16 22:03:59 阅读次数：236

关于hive的存储格式

1.存储格式 textfile rcfile orc parquet 2.存储方式按行存储 -》textfile 按列存储 -》parquet 3.压缩比 4.存储textfile的原文件并加载数据 5.大小 6.保存为tectfile，经过mapreduce 7.结果的大小 8.保存为orc格 ...

分类：其他好文时间：2016-11-15 23:41:32 阅读次数：253

[原创]kudu vs parquet, impala vs spark Benchmark

测试环境节点: 2 台主节点，6台计算节点机器配置: 16个物理核 128G内存 12*3T磁盘操作系统: redhat 7.2 版本: CDH 5.7.1-1.cdh5.7.1.p0.11 impala_kudu 2.7.0-1.cdh5.9.0.p0.23 kudu 0.9.1-1.kud ...

分类：其他好文时间：2016-09-01 11:06:29 阅读次数：262

[翻译] Dremel made simple with Parquet

首先自己的 blog 好久没有写技术相关的东西了，今天又动笔了，好高兴！然后转载请注明出处。最后开始正题: 原文：Dremel made simple with Parquet | Twitter Engineering Blog Google 对于传说中3秒查询 1 PB 数据的 Dremel，有 ...

分类：其他好文时间：2016-08-24 18:57:23 阅读次数：187

Impala实践之十一：parquet性能测试

前言之前一直考虑更换impala的文件存储格式为parquet，但是没有立即使用，最近又做了一些测试，看看parquet是否真的有用。在测试的时候顺便测了一下compute语句的效果，一起作为参考。下面抽出一个小业务的部分测试结果来展示。测试准备库名和表名当然不是真的。测试范围：文件格式：parquet和text compute语句的影响测试用表：表名行数字段数物理存储大...

分类：其他好文时间：2016-08-21 12:33:53 阅读次数：211

Impala实践之十二：impala压缩方式测试

前言测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。在impala中直接建内部表。测试存储格式压缩格式文件大小建表时间 textfile none 3.0 G 38.74s parquet none 1.5 G 32.33s parquet snappy 709.3 M 31.71...

分类：其他好文时间：2016-08-21 12:32:15 阅读次数：210

共121条上一页 1 ... 7 8 9 10 11 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)