搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

Parquet介绍及简单使用（转）

==> 什么是parquet Parquet 是列式存储的一种文件类型 ==> 官网描述： Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless ...

分类：其他好文时间：2019-11-23 19:56:07 阅读次数：110

hive 存储格式对比

Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|S ...

分类：其他好文时间：2019-11-18 18:42:00 阅读次数：109

大数据--hive文件存储格式

一、hive文件存储格式 Hive支持的存储数的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。行存储的特点：查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需 ...

分类：其他好文时间：2019-10-03 14:40:32 阅读次数：87

hive基础知识五

Hive 主流文件存储格式对比 1、存储文件的压缩比测试创建表，存储数据格式为TextFile 创建表，存储数据格式为TextFile 向表中加载数据向表中加载数据查看表的数据量大小查看表的数据量大小创建表，存储数据格式为 parquet 创建表，存储数据格式为 parquet 向表中加载 ...

分类：其他好文时间：2019-10-03 10:39:51 阅读次数：96

spark-shell读取parquet文件

1、进入spark-shell窗口 2、 3、 hdfs://cdp是defaultFS，也可以不写，如下: 4、参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium ...

分类：系统相关时间：2019-09-21 14:52:27 阅读次数：234

Structured Streaming 实战案例读取文本数据

1.1.1.读取文本数据 spark应用可以监听某一个目录，而web服务在这个目录上实时产生日志文件，这样对于spark应用来说，日志文件就是实时数据 Structured Streaming支持的文件类型有text，csv，json，parquet ●准备工作在people.json文件输入如下 ...

分类：其他好文时间：2019-09-11 09:27:19 阅读次数：137

39、Parquet数据源之自动分区推断&合并元数据

一、自动分区推断1、概述表分区是一种常见的优化方式，比如Hive中就提供了表分区的特性。在一个分区表中，不同分区的数据通常存储在不同的目录中，分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源，支持自动根据目录名推断出分区信息。例如，如果将人口数据存储在分区表中，... ...

分类：其他好文时间：2019-07-31 17:01:49 阅读次数：138

SparkSQL调优

1、执行计划（过往记忆https://www.iteblog.com/archives/2562.html） 2、逻辑计划优化方法：谓词下推，列裁剪，常量替换，常量累加 3、优化方法数据源方面： 1、hive 使用parquet格式，不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...

分类：数据库时间：2019-06-18 23:01:37 阅读次数：303

IDEA使用maven插件打jar包流程

idea使用maven插件打jar包步骤以及遇到的问题一、在pom中添加插件，直接复制就好，如下选项注意：关于插件中这个地方需要注意一下：这里分为两种情况 a.打包scala程序如果只是打包scala程序的话，这里代表的是主函数的方法名，一定是全路径名(包名+类名) jar包运行方式：jav ...

分类：编程语言时间：2019-06-01 19:57:27 阅读次数：127

hive中的文件格式的简介

【hive中的file_format】 SEQUENCEFILE：生产中绝对不会用，k-v格式，比源文本格式占用磁盘更多 TEXTFILE：生产中用的多，行式存储 RCFILE：生产中用的少，行列混合存储，OCR是他得升级版 ORC：生产中最常用，列式存储 PARQUET：生产中最常用，列式存储 A ...

分类：其他好文时间：2019-04-21 09:17:35 阅读次数：206

共121条上一页 1 2 3 4 5 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)