搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

SparkSql运行原理详细解析

传统关系型数据库中，最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。分别对应了sql查询过程中的result , datasource和op ...

分类：数据库时间：2020-03-14 12:38:24 阅读次数：75

spark sql架构和原理——和Hive类似 dataframe无非是内存中的table而已底层原始数据存储可以是parquet hive json avro等

from：https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后 ...

分类：数据库时间：2020-03-08 16:00:50 阅读次数：107

hive学习

建表 1 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) 2 [(col_name dat ...

分类：其他好文时间：2020-02-26 18:43:12 阅读次数：80

DataFrame创建方式总结

DataFrame创建方式应该按照数据源进行划分，数据源是：普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件：（1）case class 创建（2）structType 创建 2、json/parquet文件：直接读取 3、mysql数据库 ...

分类：其他好文时间：2020-02-03 14:04:07 阅读次数：93

pandas(一)

pandas.io 1.概述，主要从txt，json，pkl，csv，excel中读取数据，读取的数据最终转化为pandas.core.frame.DataFrame类型的df 先来看总的api from pandas.io.clipboards import read_clipboard #读剪切 ...

分类：其他好文时间：2020-02-01 10:54:31 阅读次数：125

Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10 ...

分类：Web程序时间：2020-02-01 10:31:42 阅读次数：386

sparkSessiontest

记事本内容：打印结构：结果展示： parquet的优势支持列存储+嵌套数据格式+适配多个计算框架节省表扫描时间和反序列的时间压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快加载数据：sparkSession.read.parquet(“/ ...

分类：其他好文时间：2020-01-19 12:47:25 阅读次数：87

Parquet的Repetition Level和Definition Level

如下的 schema 定义了每行是一个组合类型Document:(required表示必须有，optional表示可选，repeated表示可重复的，即数组（数组长度可以是0）。group类似于struct) message Document { required int64 DocId; opti ...

分类：其他好文时间：2019-12-12 14:55:03 阅读次数：105

Spark 基础 —— 创建 DataFrame 的三种方式

1.自定义 schema（Rdd[Row] => DataSet[Row]) 2.借助 case class 隐式转换（Rdd[Person] => DataSet[Row]) 3.直接从数据源创建此外 233 ...

分类：其他好文时间：2019-12-07 16:18:20 阅读次数：620

parquet 简介(转)

原文 Parquet 列式存储格式面向分析型业务的列式存储格式由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目列式存储列式存储和行式存储相比有哪些优势呢？当时 Twitter 的日增数据量达到压缩之后的 1 ...

分类：其他好文时间：2019-11-23 20:28:46 阅读次数：83

共121条上一页 1 2 3 4 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)