码迷,mamicode.com
首页 >  
搜索关键字:spark-sql    ( 532个结果
Spark SQL自定义外部数据源
1 涉及到的API 2 代码实现 定义ralation 定义Schema以及读取数据代码 类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据 数据 参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source ...
分类:数据库   时间:2019-02-25 13:26:40    阅读次数:202
Spark SQL Join原理分析
Spark SQL Join原理分析
分类:数据库   时间:2019-02-19 18:53:18    阅读次数:313
Spark——DataFrame与RDD互操作方式
一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 ...
分类:其他好文   时间:2019-01-25 11:40:06    阅读次数:189
Spark SQL
一、SparkSQL介绍 二、DataFrame介绍 三、SQL风格 1、SqlTest1 2、user.txt 3、结果 四、toDF使用 五、DSL风格 结果: 六、WordCount 1、SqlWordCount 2、words.txt 3、结果 七、Join操作 1、JoinDemo 2、结 ...
分类:数据库   时间:2019-01-20 23:38:40    阅读次数:1208
java+spark-sql查询excel
Spark官网下载Spark Spark下载,版本随意,下载后解压放入bigdata下(目录可以更改) 下载Windows下Hadoop所需文件winutils.exe 同学们自己网上找找吧,这里就不上传了,其实该文件可有可无,报错也不影响Spark运行,强迫症可以下载,本人就有强迫症~~,文件下载 ...
分类:数据库   时间:2019-01-19 16:17:28    阅读次数:299
spark sql 性能调优
1、在内存中缓存数据 性能调优主要是将数据放入内存中操作。通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。 Demo案例: (*)从Oracle数据库中读 ...
分类:数据库   时间:2019-01-12 21:41:58    阅读次数:315
spark-sql 自定义函数
(1)自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg
分类:数据库   时间:2019-01-06 11:19:51    阅读次数:181
spark-sql的进阶案例
(1)骨灰级案例--UDTF求wordcount数据格式:每一行都是字符串并且以空格分开。代码实现:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s
分类:数据库   时间:2019-01-06 00:03:22    阅读次数:216
Spark-SQL的具体编程场景
入门案例:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("
分类:数据库   时间:2019-01-05 20:39:05    阅读次数:184
spark-sql的概述以及编程模型的介绍
1、sparksql的概述(1)sparksql的介绍:  SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。  外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使
分类:数据库   时间:2019-01-05 13:37:33    阅读次数:251
532条   上一页 1 ... 14 15 16 17 18 ... 54 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!