# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```objec ...
分类:
数据库 时间:
2020-03-30 21:50:35
阅读次数:
213
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:
数据库 时间:
2020-03-30 14:42:50
阅读次数:
141
公司所有产品均是json数据上报给数仓使用,由于格式的不统一造成数据处理很麻烦,经过讨论将公共字段抽取出来,将业务线自己的字段放在 extends字段里面各个业务线的人自己写sql解析extends字段处理。里面涉及到一个json转map的知识点再此记录一下。 一:JSON转Map 为什需要将JSO ...
分类:
数据库 时间:
2020-03-29 01:30:50
阅读次数:
194
SparkSession: SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession ...
分类:
其他好文 时间:
2020-03-27 16:48:03
阅读次数:
46
传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op ...
分类:
数据库 时间:
2020-03-14 12:38:24
阅读次数:
75
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
一、大数据spark 跟着b站的尚硅谷大数据往后学习了9个知识点 视频号:av62992342 内容:累加器与广播变量、初步认识SparkSQL 课程学习进度:63/126 二、《一线架构师实践指南》阅读 阅读了第九章 高层分割(两种实践套路、概念架构与贯穿案例) ...
分类:
其他好文 时间:
2020-02-09 20:08:12
阅读次数:
57
今天学习SparkSQL方面的知识 该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目: Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架 Execution (sql/core) - 代表pl ...
分类:
其他好文 时间:
2020-02-07 22:13:50
阅读次数:
85
1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数? spark中我们定义一个函数,需要继承 UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式? 我只 ...
分类:
数据库 时间:
2020-02-04 23:50:06
阅读次数:
115
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97