-- 重点,目标表无重复数据 从结果可以看出,在无重复数据的情况下,parquet的压缩无用武之地,占用空间比textfile还大,ORC是压缩最强的文件模式。 ...
分类:
其他好文 时间:
2018-12-05 20:32:24
阅读次数:
201
摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式 大数据:Parquet文件存储格式 ...
分类:
其他好文 时间:
2018-10-07 10:36:46
阅读次数:
186
Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。当只使用一部分字段时,Spark SQL可以智能地只扫描这些字段,而不会像hadoopFile方法一样简单粗暴地扫描全部数据。SparkSQL之读写数据主要内容有:Parquet、JSON、Hive表、JDBC连接关系型数据库。
分类:
数据库 时间:
2018-09-10 00:57:49
阅读次数:
250
HBase 数据读写过程描述 我们熟悉的在 Hadoop 使用的文件格式有许多种,例如: Avro:用于 HDFS 数据序序列化与 Parquet:常见于 Hive 数据文件保存在 HDFS中 HFile HFile 是 HBase 使用的一种柱状存储文件,非常适合随机和实时读写。 HFile 文件 ...
分类:
其他好文 时间:
2018-08-24 16:04:24
阅读次数:
206
一、通用的load和save操作 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据保存到文件中。 Java版 ...
分类:
数据库 时间:
2018-08-23 20:10:12
阅读次数:
176
一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析 ...
分类:
数据库 时间:
2018-08-22 18:23:03
阅读次数:
158
总结一下近期学习的大数据知识, 学习之前没搞清楚的知识 传统的web应用(LAMP、JavaEE、NODE系等)与大数据什么关系? 之前一直以为大数据的东西就是来取代传统的Web应用的,其实并不是这样;即使是大数据的架构,应用层依然会是传统的web应用,但是会根据数据特点对数据存储(结构化数据依然会 ...
分类:
其他好文 时间:
2018-08-18 13:26:39
阅读次数:
179
一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: ...
分类:
其他好文 时间:
2018-07-18 23:13:28
阅读次数:
212
上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl ...
分类:
其他好文 时间:
2018-05-25 13:44:26
阅读次数:
225
课程目录:第一天:01.传统广告回顾02.几个问题思考03.广告的表现形式04.名词解释05.DSP原理图06.DSP业务流程07.DMP项目背景08.DMP业务流程 重要09.日志格式介绍10.需求一日志转parquet文件第二天:01.工程包的创建02.日志转parquet文件实现方式一 Str ...
分类:
其他好文 时间:
2018-05-22 22:15:12
阅读次数:
329