码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
Parquet介绍及简单使用(转)
==> 什么是parquet Parquet 是列式存储的一种文件类型 ==> 官网描述: Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless ...
分类:其他好文   时间:2019-11-23 19:56:07    阅读次数:110
hive 存储格式对比
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:其他好文   时间:2019-11-18 18:42:00    阅读次数:109
大数据--hive文件存储格式
一、hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:其他好文   时间:2019-10-03 14:40:32    阅读次数:87
hive基础知识五
Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 ...
分类:其他好文   时间:2019-10-03 10:39:51    阅读次数:96
spark-shell读取parquet文件
1、进入spark-shell窗口 2、 3、 hdfs://cdp是defaultFS,也可以不写,如下: 4、 参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium ...
分类:系统相关   时间:2019-09-21 14:52:27    阅读次数:234
Structured Streaming 实战案例 读取文本数据
1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 ...
分类:其他好文   时间:2019-09-11 09:27:19    阅读次数:137
39、Parquet数据源之自动分区推断&合并元数据
一、自动分区推断1、概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,... ...
分类:其他好文   时间:2019-07-31 17:01:49    阅读次数:138
SparkSQL调优
1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:数据库   时间:2019-06-18 23:01:37    阅读次数:303
IDEA使用maven插件打jar包流程
idea使用maven插件打jar包步骤以及遇到的问题 一、在pom中添加插件,直接复制就好,如下选项 注意:关于插件中这个地方需要注意一下: 这里分为两种情况 a.打包scala程序 如果只是打包scala程序的话,这里代表的是主函数的方法名,一定是全路径名(包名+类名) jar包运行方式:jav ...
分类:编程语言   时间:2019-06-01 19:57:27    阅读次数:127
hive中的文件格式的简介
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:其他好文   时间:2019-04-21 09:17:35    阅读次数:206
121条   上一页 1 2 3 4 5 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!