撰写本文的目的:对于sparksql,网上有大量的详细文档,本人针对常用的操作进行一个整理,当然有大多数都是从其他地方搬过来的,包括官方文档以及其他网友的一些分享,一来是通过此次整理加强自己的记忆,二来如果有幸帮到某位网友,那是本人莫大的荣幸,先感谢您的阅读,废话不多说,进入正文: 下文所涉及到的相 ...
分类:
数据库 时间:
2020-01-28 23:26:40
阅读次数:
169
SparkCore、SparkSQL和SparkStreaming的类似之处 SparkStreaming的运行流程 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入 ...
分类:
其他好文 时间:
2020-01-26 19:26:57
阅读次数:
73
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User Defined Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User Defined Aggregation Funcation),用户自定义聚合函数,类似在g ...
分类:
数据库 时间:
2020-01-26 19:21:32
阅读次数:
86
概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓库的 ...
分类:
数据库 时间:
2020-01-26 19:19:05
阅读次数:
102
SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) ...
分类:
数据库 时间:
2020-01-26 19:06:08
阅读次数:
99
接下来要写4篇的进度报告,准备把RDD编程和SparkSQL放在这几天一起弄掉(没回老家的大年三十稍微有些无聊)。 这一篇我想先笼统一下各方面的知识,省的有不理解的地方。 首先是RDD。 作为一个分布式的数据构造,RDD对我来说方法是抽象的,而且一般来说面向我的都是函数式的编程操作,很难体会到RDD ...
分类:
其他好文 时间:
2020-01-24 20:10:05
阅读次数:
101
本文通过精炼的归纳总结和翔实的举例说明列举出SparkSQL开发过程中经常出错的,需要注意的一些细节,欢迎交流~ ...
分类:
数据库 时间:
2020-01-20 14:50:47
阅读次数:
81
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
导读目录 第一节:sparksql 1:简介 2:核心 3:与hive整合 4:dataFrame 5:函数 第二节:spark Streaming 1:对比strom 2:DStream的算子 3:代码 4:driver HA 5:读取数据 第三节:spark调优 第一节:sparksql (1) ...
分类:
数据库 时间:
2020-01-09 20:46:58
阅读次数:
91
一.官网位置1.位置2.解释官网位置DataSet1.6出现的SchemaRDD<1.31.3版本前叫SchemaRDD1.3以后叫DataFrameDataSet支持Scala,JAVA不支持pythonDataFrame支持四种JAVA,Scala.Python,RDataFrame:并不是sparksql独创的,原来就有的,从其他框架借鉴过来的二.DataFrame注意事项1.注意分布
分类:
数据库 时间:
2020-01-05 09:39:35
阅读次数:
76