搜索关键字：spark-sql，搜索到532个结果！码迷,mamicode.com！

Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset，它们都可以实现很多相同的数据处理，它们之间的性能差异如何，在什么情况下该选用哪一种呢？ RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说， ...

分类：数据库时间：2021-01-08 10:40:55 阅读次数：0

Spark Stuctured Streaming 读取文件夹数据

package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org ...

分类：其他好文时间：2020-11-16 13:25:07 阅读次数：3

spark sql 判断一列是否包含某字符

spark sql 的function中有一个 instr 可以判断其中一列是否是另外一列的子字符新增字段判断一个字段是否包含另一个字段的字符串，如果包含值为1否则是0 Df.withColumn("newColumn",when(instr(col("aColumn"),col("bColum ...

分类：数据库时间：2020-10-27 10:54:18 阅读次数：55

spark之连接SQL和HIVE

一、连接SQL package com.njbdqn.linkSql import java.util.Properties import org.apache.spark.sql.SparkSession import org.apache.spark.sql._ object LinkSql { ...

分类：数据库时间：2020-10-06 20:52:59 阅读次数：35

Spark(十一)【SparkSQL的基本使用】

一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿，区别在 ...

分类：数据库时间：2020-08-07 21:45:52 阅读次数：79

spark sql/hive小文件问题

针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...

分类：数据库时间：2020-08-03 19:56:21 阅读次数：103

Hive函数大全-完整版

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、 ...

分类：其他好文时间：2020-07-28 14:21:17 阅读次数：191

Spark SQL(6) OptimizedPlan

Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analy ...

分类：数据库时间：2020-07-26 19:28:25 阅读次数：101

COMP9313 week7b Spark SQL

https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L6.pdf Table recall: 1. rows: entity 2. columns: attributes Spark SQL: 1. Spark SQL is not about sql, ...

分类：数据库时间：2020-07-19 00:39:19 阅读次数：98

半小时，利用FEDB将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用，比如在金融行业的反欺诈，媒体行业的新闻推荐，能源行业管道检测，而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类1.多表场景，用于表之间拼接操作，比如交易信息表去拼接账户表2.使用udf进行简单的特征变换，比如对时间戳进行hour函数处理3.使用时间窗口和udaf

分类：数据库时间：2020-07-09 17:54:20 阅读次数：99

共532条上一页 1 2 3 4 5 ... 54 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)