搜索关键字：sparksql，搜索到306个结果！码迷,mamicode.com！

3.sparkSQL整合Hive

spark SQL经常需要访问Hive metastore，Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始，Spark SQL只需简单的配置，就支持各版本Hive metastore的访问。注意，涉及到metastore时Spar SQL忽 ...

分类：数据库时间：2018-08-09 23:04:22 阅读次数：286

046 SparlSQL中的函数

一：SparkSQL中的函数 1.说明 2.展示所有的函数 qlContext.sql("show functions").show(300) 3.functions类所有内置支持的函数。主要用于DSL语言。二：窗口分析函数 1.说明 hive中常用的一种分析函数。 2.在Spark中使用be ...

分类：数据库时间：2018-07-29 00:14:35 阅读次数：253

Spark SQL

sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优 ...

分类：数据库时间：2018-07-26 15:12:40 阅读次数：216

Spark（十八）SparkSQL的自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在 ...

分类：数据库时间：2018-07-14 00:53:49 阅读次数：196

Spark（十七）SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始： SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x： SparkSQL+DataFrame+DataSet(测试版本 ...

分类：数据库时间：2018-07-14 00:53:31 阅读次数：345

sparkSQL中cache的若干问题

sparkSQL在使用cache缓存的时候，有时候缓存可能不起作用，可能会发出缓存是假的吧的感慨。现在我们就把这个问题说道说道。

分类：数据库时间：2018-07-12 18:04:26 阅读次数：338

spark dataframe 将null 改为 nan

由于我要叠加rdd某列的数据，如果加数中出现nan，结果也需要是nan，nan可以做到，但我要处理的数据源中的nan是以null的形式出现的，null不能叠加，而且我也不能删掉含null的行，于是我用了sparksql 的 ISNULL和CASE WHEN方法： Case When 方法：如果ob ...

分类：其他好文时间：2018-07-09 19:15:05 阅读次数：484

Spark SQL metaData配置到Mysql

构造以spark为核心的数据仓库: 0.说明在大数据领域，hive作为老牌的数据仓库比较流行，spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨，大不了我们用spark建立最新的数据仓库。 sparkSQL的发展历程表明了，spark本身就可以做数据仓库，而不需要hive。sp ...

分类：数据库时间：2018-06-22 22:44:43 阅读次数：268

Spark SQL数据源

SparkSQL数据源：从各种数据源创建DataFrame 因为 spark sql，dataframe，datasets 都是共用 spark sql 这个库的，三者共享同样的代码优化，生成以及执行流程，所以 sql，dataframe，datasets 的入口都是 sqlContext。可用于 ...

分类：数据库时间：2018-06-15 20:06:26 阅读次数：189

SparkSQL大数据实战：揭开Join的神秘面纱

本文来自网易云社区。 Join操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的Join操作，本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题，传统查询SQL技术总体可以分为简单操作（过滤操作-wher ...

分类：数据库时间：2018-06-01 15:32:57 阅读次数：189

共306条上一页 1 ... 13 14 15 16 17 ... 31 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)