码迷,mamicode.com
首页 >  
搜索关键字:parquet    ( 121个结果
SparkSql运行原理详细解析
传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op ...
分类:数据库   时间:2020-03-14 12:38:24    阅读次数:75
spark sql架构和原理——和Hive类似 dataframe无非是内存中的table而已 底层原始数据存储可以是parquet hive json avro等
from:https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后 ...
分类:数据库   时间:2020-03-08 16:00:50    阅读次数:107
hive学习
建表 1 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) 2 [(col_name dat ...
分类:其他好文   时间:2020-02-26 18:43:12    阅读次数:80
DataFrame创建方式总结
DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: (1)case class 创建 (2)structType 创建 2、json/parquet文件: 直接读取 3、mysql数据库 ...
分类:其他好文   时间:2020-02-03 14:04:07    阅读次数:93
pandas(一)
pandas.io 1.概述,主要从txt,json,pkl,csv,excel中读取数据,读取的数据最终转化为pandas.core.frame.DataFrame类型的df 先来看总的api from pandas.io.clipboards import read_clipboard #读剪切 ...
分类:其他好文   时间:2020-02-01 10:54:31    阅读次数:125
Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10 ...
分类:Web程序   时间:2020-02-01 10:31:42    阅读次数:386
sparkSessiontest
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:其他好文   时间:2020-01-19 12:47:25    阅读次数:87
Parquet的Repetition Level和Definition Level
如下的 schema 定义了每行是一个组合类型Document:(required表示必须有,optional表示可选,repeated表示可重复的,即数组(数组长度可以是0)。group类似于struct) message Document { required int64 DocId; opti ...
分类:其他好文   时间:2019-12-12 14:55:03    阅读次数:105
Spark 基础 —— 创建 DataFrame 的三种方式
1.自定义 schema(Rdd[Row] => DataSet[Row]) 2.借助 case class 隐式转换(Rdd[Person] => DataSet[Row]) 3.直接从数据源创建 此外 233 ...
分类:其他好文   时间:2019-12-07 16:18:20    阅读次数:620
parquet 简介(转)
原文 Parquet 列式存储格式 面向分析型业务的列式存储格式 由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩之后的 1 ...
分类:其他好文   时间:2019-11-23 20:28:46    阅读次数:83
121条   上一页 1 2 3 4 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!