搜索关键字：spark-sql，搜索到532个结果！码迷,mamicode.com！

Spark SQL自定义外部数据源

1 涉及到的API 2 代码实现定义ralation 定义Schema以及读取数据代码类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据数据参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source ...

分类：数据库时间：2019-02-25 13:26:40 阅读次数：202

Spark SQL Join原理分析

分类：数据库时间：2019-02-19 18:53:18 阅读次数：313

Spark——DataFrame与RDD互操作方式

一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁，并且在编写Spark应用程序时已经了解了模式，因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射在开始之前 ...

分类：其他好文时间：2019-01-25 11:40:06 阅读次数：189

Spark SQL

一、SparkSQL介绍二、DataFrame介绍三、SQL风格 1、SqlTest1 2、user.txt 3、结果四、toDF使用五、DSL风格结果：六、WordCount 1、SqlWordCount 2、words.txt 3、结果七、Join操作 1、JoinDemo 2、结 ...

分类：数据库时间：2019-01-20 23:38:40 阅读次数：1208

java+spark-sql查询excel

Spark官网下载Spark Spark下载,版本随意,下载后解压放入bigdata下(目录可以更改) 下载Windows下Hadoop所需文件winutils.exe 同学们自己网上找找吧，这里就不上传了，其实该文件可有可无，报错也不影响Spark运行，强迫症可以下载，本人就有强迫症~~,文件下载 ...

分类：数据库时间：2019-01-19 16:17:28 阅读次数：299

spark sql 性能调优

1、在内存中缓存数据性能调优主要是将数据放入内存中操作。通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。 Demo案例：（*）从Oracle数据库中读 ...

分类：数据库时间：2019-01-12 21:41:58 阅读次数：315

spark-sql 自定义函数

（1）自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg

分类：数据库时间：2019-01-06 11:19:51 阅读次数：181

spark-sql的进阶案例

（1）骨灰级案例--UDTF求wordcount数据格式：每一行都是字符串并且以空格分开。代码实现：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s

分类：数据库时间：2019-01-06 00:03:22 阅读次数：216

Spark-SQL的具体编程场景

入门案例：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("

分类：数据库时间：2019-01-05 20:39:05 阅读次数：184

spark-sql的概述以及编程模型的介绍

1、sparksql的概述（1）sparksql的介绍： SparkSQL是Spark用来处理结构化数据（结构化数据可以来自外部结构化数据源也可以通过RDD获取）的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使

分类：数据库时间：2019-01-05 13:37:33 阅读次数：251

共532条上一页 1 ... 14 15 16 17 18 ... 54 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)