1 涉及到的API 2 代码实现 定义ralation 定义Schema以及读取数据代码 类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据 数据 参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source ...
分类:
数据库 时间:
2019-02-25 13:26:40
阅读次数:
202
一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 ...
分类:
其他好文 时间:
2019-01-25 11:40:06
阅读次数:
189
一、SparkSQL介绍 二、DataFrame介绍 三、SQL风格 1、SqlTest1 2、user.txt 3、结果 四、toDF使用 五、DSL风格 结果: 六、WordCount 1、SqlWordCount 2、words.txt 3、结果 七、Join操作 1、JoinDemo 2、结 ...
分类:
数据库 时间:
2019-01-20 23:38:40
阅读次数:
1208
Spark官网下载Spark Spark下载,版本随意,下载后解压放入bigdata下(目录可以更改) 下载Windows下Hadoop所需文件winutils.exe 同学们自己网上找找吧,这里就不上传了,其实该文件可有可无,报错也不影响Spark运行,强迫症可以下载,本人就有强迫症~~,文件下载 ...
分类:
数据库 时间:
2019-01-19 16:17:28
阅读次数:
299
1、在内存中缓存数据 性能调优主要是将数据放入内存中操作。通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。 Demo案例: (*)从Oracle数据库中读 ...
分类:
数据库 时间:
2019-01-12 21:41:58
阅读次数:
315
(1)自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg
分类:
数据库 时间:
2019-01-06 11:19:51
阅读次数:
181
(1)骨灰级案例--UDTF求wordcount数据格式:每一行都是字符串并且以空格分开。代码实现:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s
分类:
数据库 时间:
2019-01-06 00:03:22
阅读次数:
216
入门案例:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("
分类:
数据库 时间:
2019-01-05 20:39:05
阅读次数:
184
1、sparksql的概述(1)sparksql的介绍: SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使
分类:
数据库 时间:
2019-01-05 13:37:33
阅读次数:
251