搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

hive on spark配置

1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装spa... ...

分类：其他好文时间：2017-12-03 19:55:38 阅读次数：372

大数据：Parquet文件存储格式

一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。查询引擎: ...

分类：其他好文时间：2017-10-17 15:28:28 阅读次数：342

大数据：Hive - ORC 文件存储格式

一、ORC File文件结构 ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个 ...

分类：其他好文时间：2017-10-16 19:43:52 阅读次数：402

hive压缩

1. 常用 rcfile + gzip parquet + snappy 2. 压缩比，参考如果是数据源的话，采用 RCFile+bz 或 RCFile+gz 的方式，这样可以很大程度上节省磁盘空间；而在计算的过程中，为了不影响执行的速度，可以浪费一点磁盘空间，建议采用 RCFile+snapp ...

分类：其他好文时间：2017-09-07 14:51:43 阅读次数：169

Parquet and ORC

http://dongxicheng.org/mapreduce-nextgen/columnar-storage-parquet-and-orc/ 相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数 ...

分类：其他好文时间：2017-08-14 19:05:31 阅读次数：165

spark的一些经验

1，如果写sql语句能实现的操作，最好就不要用dataframe了；spark会自己做优化，性能和稳定性都会比较高 2，中间过程存成parquet文件而不是HIVE表 3，能用reduceByKey就不要用groupByKey 4，在数据量很大或者存在倾斜的时候，可以考虑先repartition后在 ...

分类：其他好文时间：2017-08-03 00:53:49 阅读次数：221

Spark SQL笔记——技术点汇总

目录 · 概述 · 原理 · 组成 · 执行流程 · 性能 · API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation · 性能调优 ...

分类：数据库时间：2017-07-31 09:58:34 阅读次数：395

Parquet Parquet is a columnar storage format for Hadoop. Parquet is designed to make the advantages of compressed, efficient colunmar data representat ...

分类：其他好文时间：2017-07-30 13:57:11 阅读次数：309

Spark Kudu 结合

Kudu的背景 Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构， Hbase：实现快速插入和修改，对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive：对超大的数据集进行查询分析，对于这类场景， Parquet这种列式存储文件格式具有极大的优势。 HDF ...

分类：其他好文时间：2017-07-20 17:29:13 阅读次数：381

java 读写Parquet格式的数据 Parquet example

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.Random; import org.apache.... ...

分类：编程语言时间：2017-07-12 17:48:00 阅读次数：1517

共121条上一页 1 ... 5 6 7 8 9 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)