搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能

这篇文章提出了在Apache Hadoop生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能：Apache Avro，Apache Parquet，Apache HBase和Apache Kudu空间效率，提取性能，分析扫描以及随机数据查找等领域。这有助于理解它们中的每一个如何(何时)改善你 ...

分类：Web程序时间：2017-06-04 00:13:14 阅读次数：385

Operations upon Impala Create table stored as parquet like parquet '/user/etl/datafile1' stored as parquet Loading data shuffle / no shuffle to choose ...

分类：其他好文时间：2017-05-29 12:02:19 阅读次数：325

Spark 中关于Parquet的应用与性能初步测试

Spark中关于Parquet的应用Parquet简介Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目http://parquet.apache.org/Spark关于Parquet的支持这里我们使用的版本为spark2.0.1，是2016年10月3日发布的最新..

分类：其他好文时间：2017-05-21 15:22:53 阅读次数：1834

Spark学习笔记——读写HDFS

使用Spark读写HDFS中的parquet文件文件夹中的parquet文件 build.sbt文件 Scala实现方法 ...

分类：其他好文时间：2017-04-18 15:12:14 阅读次数：2013

parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取

Parquet是Twitter贡献给开源社区的一个列数据存储格式，采用和Dremel相同的文件存储算法，支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面，比如电信行业，具有一定规则的数据，字段很多，但是每次查询仅仅针对 ...

分类：其他好文时间：2017-03-14 13:14:35 阅读次数：368

万亿级日志与行为数据存储查询技术剖析——Hbase系预聚合方案、Dremel系parquet列存储、预聚合系、Lucene系

转自：http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_con ...

分类：Web程序时间：2017-03-02 17:21:42 阅读次数：1427

数据分析文章待读

《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是大数据实时分析系统未来的选择吗？》《一套数据，多种引擎（impala/Hive/kylin）》《一套数据，多种引擎续两种数据格式（Parquet/ORCfile）浅析》有兴趣可以看看。 ...

分类：其他好文时间：2017-03-01 18:13:03 阅读次数：173

Spark SQL下的Parquet使用最佳实践和代码实战

一：Spark SQL下的Parquet使用最佳实践 1，过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式： A）Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - ...

分类：数据库时间：2017-01-20 16:21:10 阅读次数：465

快速理解Parquet的DL和RL

关于Parquet的详细介绍，请参考：新一代列式存储格式Parquet，此文中对Parquet做了详细的介绍，这里不做重复介绍，但其中关于Definition Level(DL)和Repeated Level(RL)部分，比较难懂，这里做一个更加方便易懂的总结。对DL和RL的理解，最好是文中的关 ...

分类：其他好文时间：2016-12-31 19:03:57 阅读次数：298

RC ORC Parquet 格式比较和性能测试

为什么要比较，起因是为了提高Hadoop集群的存储和计算效率，尤其是离线Hive作业的效率，为什么比较的是这三者，是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种主流的相对成熟的...

分类：其他好文时间：2016-12-22 23:07:10 阅读次数：1959

共121条上一页 1 ... 6 7 8 9 10 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)