==> 什么是parquet Parquet 是列式存储的一种文件类型 ==> 官网描述: Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless ...
分类:
其他好文 时间:
2019-11-23 19:56:07
阅读次数:
110
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
一、hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:
其他好文 时间:
2019-10-03 14:40:32
阅读次数:
87
Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 ...
分类:
其他好文 时间:
2019-10-03 10:39:51
阅读次数:
96
1、进入spark-shell窗口 2、 3、 hdfs://cdp是defaultFS,也可以不写,如下: 4、 参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium ...
分类:
系统相关 时间:
2019-09-21 14:52:27
阅读次数:
234
1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 ...
分类:
其他好文 时间:
2019-09-11 09:27:19
阅读次数:
137
一、自动分区推断1、概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,... ...
分类:
其他好文 时间:
2019-07-31 17:01:49
阅读次数:
138
1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:
数据库 时间:
2019-06-18 23:01:37
阅读次数:
303
idea使用maven插件打jar包步骤以及遇到的问题 一、在pom中添加插件,直接复制就好,如下选项 注意:关于插件中这个地方需要注意一下: 这里分为两种情况 a.打包scala程序 如果只是打包scala程序的话,这里代表的是主函数的方法名,一定是全路径名(包名+类名) jar包运行方式:jav ...
分类:
编程语言 时间:
2019-06-01 19:57:27
阅读次数:
127
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:
其他好文 时间:
2019-04-21 09:17:35
阅读次数:
206