搜索关键字：sparksql hivecontext，搜索到324个结果！码迷,mamicode.com！

oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 1. exist 转换为 ...

分类：数据库时间：2020-05-25 19:47:59 阅读次数：94

记录一下window idea 如何直连sparksql 使用hive数据元数据

换了几个开发环境，每次都会遇到sparksql连不上元数据的情况，整理一下脱坑吧。。。。。进入主题：首先说一下几个文件吧，这些是我遇到的几个问题的解决方法，有可能你并不适用，仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...

分类：数据库时间：2020-05-14 11:27:02 阅读次数：101

RDD和DataFrame和DataSet三者间的区别

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...

分类：其他好文时间：2020-05-12 17:13:48 阅读次数：220

SparkStream（二）

有状态和无状态无状态：仅限对收集周期内数据进行处理有状态：将本次收集周期与前面的所有收集周期获得的数据统一进行处理，两个周期内的数据合并过程类似于SparkSQL中自定义聚合函数的buffer。窗口函数 window operations可以设置窗口的大小和华东窗口的间隔来动态的获取当前Str ...

分类：其他好文时间：2020-05-12 15:22:08 阅读次数：59

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...

分类：数据库时间：2020-05-09 19:20:15 阅读次数：100

sparkcore sparksql单词统计—切分-聚合

1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...

分类：数据库时间：2020-05-05 18:27:44 阅读次数：87

小记--------sparkSQL - spark基础知识

1.RDD 是spark的核心数据结构，全称是弹性分布式数据集。本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...

分类：数据库时间：2020-04-19 01:15:39 阅读次数：108

RDD、DF和DS的共性与区别

共性： 1、都是spark平台下的分布式弹性数据集 2、都有惰性机制，创建、转换如map操作时不会立即执行，遇到foreach等Action算子时才开始运算。 3、都会自动缓存计算 4、都有partition概念区别： 1、RDD不支持sparkSQL操作 2、DF每一行类型固定为Row，只有通过 ...

分类：其他好文时间：2020-04-08 21:03:30 阅读次数：292

impala

一、impala基本介绍? 所有的计算都是基于内存来的，官方推荐每台服务器的内存最少128G起 impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive块3到10倍，其sql查询比sparkSQL还要快，号称是当前大数据领域最快的查询sql工具。 i ...

分类：其他好文时间：2020-04-04 18:48:40 阅读次数：81

SparkSQl简单使用

一：什么是SparkSQL？（一）SparkSQL简介 Spark SQL是Spark的一个模块，用于处理结构化的数据，它提供了一个数据抽象DataFrame（最核心的编程抽象就是DataFrame），并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务，提交 ...

分类：数据库时间：2020-04-02 15:36:01 阅读次数：88

共324条上一页 1 2 3 4 5 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)