传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op ...
分类:
数据库 时间:
2020-03-14 12:38:24
阅读次数:
75
from:https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后 ...
分类:
数据库 时间:
2020-03-08 16:00:50
阅读次数:
107
建表 1 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) 2 [(col_name dat ...
分类:
其他好文 时间:
2020-02-26 18:43:12
阅读次数:
80
DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: (1)case class 创建 (2)structType 创建 2、json/parquet文件: 直接读取 3、mysql数据库 ...
分类:
其他好文 时间:
2020-02-03 14:04:07
阅读次数:
93
pandas.io 1.概述,主要从txt,json,pkl,csv,excel中读取数据,读取的数据最终转化为pandas.core.frame.DataFrame类型的df 先来看总的api from pandas.io.clipboards import read_clipboard #读剪切 ...
分类:
其他好文 时间:
2020-02-01 10:54:31
阅读次数:
125
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10 ...
分类:
Web程序 时间:
2020-02-01 10:31:42
阅读次数:
386
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:
其他好文 时间:
2020-01-19 12:47:25
阅读次数:
87
如下的 schema 定义了每行是一个组合类型Document:(required表示必须有,optional表示可选,repeated表示可重复的,即数组(数组长度可以是0)。group类似于struct) message Document { required int64 DocId; opti ...
分类:
其他好文 时间:
2019-12-12 14:55:03
阅读次数:
105
1.自定义 schema(Rdd[Row] => DataSet[Row]) 2.借助 case class 隐式转换(Rdd[Person] => DataSet[Row]) 3.直接从数据源创建 此外 233 ...
分类:
其他好文 时间:
2019-12-07 16:18:20
阅读次数:
620
原文 Parquet 列式存储格式 面向分析型业务的列式存储格式 由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩之后的 1 ...
分类:
其他好文 时间:
2019-11-23 20:28:46
阅读次数:
83