公司所有产品均是json数据上报给数仓使用,由于格式的不统一造成数据处理很麻烦,经过讨论将公共字段抽取出来,将业务线自己的字段放在 extends字段里面各个业务线的人自己写sql解析extends字段处理。里面涉及到一个json转map的知识点再此记录一下。 一:JSON转Map 为什需要将JSO ...
分类:
数据库 时间:
2020-03-29 01:30:50
阅读次数:
194
传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op ...
分类:
数据库 时间:
2020-03-14 12:38:24
阅读次数:
75
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
一、大数据spark 跟着b站的尚硅谷大数据往后学习了9个知识点 视频号:av62992342 内容:累加器与广播变量、初步认识SparkSQL 课程学习进度:63/126 二、《一线架构师实践指南》阅读 阅读了第九章 高层分割(两种实践套路、概念架构与贯穿案例) ...
分类:
其他好文 时间:
2020-02-09 20:08:12
阅读次数:
57
今天学习SparkSQL方面的知识 该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目: Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架 Execution (sql/core) - 代表pl ...
分类:
其他好文 时间:
2020-02-07 22:13:50
阅读次数:
85
1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数? spark中我们定义一个函数,需要继承 UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式? 我只 ...
分类:
数据库 时间:
2020-02-04 23:50:06
阅读次数:
115
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97
撰写本文的目的:对于sparksql,网上有大量的详细文档,本人针对常用的操作进行一个整理,当然有大多数都是从其他地方搬过来的,包括官方文档以及其他网友的一些分享,一来是通过此次整理加强自己的记忆,二来如果有幸帮到某位网友,那是本人莫大的荣幸,先感谢您的阅读,废话不多说,进入正文: 下文所涉及到的相 ...
分类:
数据库 时间:
2020-01-28 23:26:40
阅读次数:
169
SparkCore、SparkSQL和SparkStreaming的类似之处 SparkStreaming的运行流程 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入 ...
分类:
其他好文 时间:
2020-01-26 19:26:57
阅读次数:
73
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User Defined Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User Defined Aggregation Funcation),用户自定义聚合函数,类似在g ...
分类:
数据库 时间:
2020-01-26 19:21:32
阅读次数:
86