码迷,mamicode.com
首页 >  
搜索关键字:sparksql    ( 306个结果
RDD和DataFrame和DataSet三者间的区别
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:其他好文   时间:2020-05-12 17:13:48    阅读次数:220
SparkStream(二)
有状态和无状态 无状态:仅限对收集周期内数据进行处理 有状态:将本次收集周期与前面的所有收集周期获得的数据统一进行处理,两个周期内的数据合并过程类似于SparkSQL中自定义聚合函数的buffer。 窗口函数 window operations可以设置窗口的大小和华东窗口的间隔来动态的获取当前Str ...
分类:其他好文   时间:2020-05-12 15:22:08    阅读次数:59
spark利用sparkSQL将数据写入hive两种通用方式实现及比较
1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...
分类:数据库   时间:2020-05-09 19:20:15    阅读次数:100
sparkcore sparksql单词统计—切分-聚合
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:数据库   时间:2020-05-05 18:27:44    阅读次数:87
小记--------sparkSQL - spark基础知识
1.RDD 是spark的核心数据结构,全称是弹性分布式数据集。 本质上是一种分布式的内存抽象,表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建,RDD定义了各种丰富的转换操作,通过转换操作,新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...
分类:数据库   时间:2020-04-19 01:15:39    阅读次数:108
RDD、DF和DS的共性与区别
共性: 1、都是spark平台下的分布式弹性数据集 2、都有惰性机制,创建、转换如map操作时不会立即执行,遇到foreach等Action算子时才开始运算。 3、都会自动缓存计算 4、都有partition概念 区别: 1、RDD不支持sparkSQL操作 2、DF每一行类型固定为Row,只有通过 ...
分类:其他好文   时间:2020-04-08 21:03:30    阅读次数:292
impala
一、impala基本介绍? 所有的计算都是基于内存来的,官方推荐每台服务器的内存最少128G起 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive块3到10倍,其sql查询比sparkSQL还要快,号称是当前大数据领域最快的查询sql工具。 i ...
分类:其他好文   时间:2020-04-04 18:48:40    阅读次数:81
SparkSQl简单使用
一:什么是SparkSQL? (一)SparkSQL简介 Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务,提交 ...
分类:数据库   时间:2020-04-02 15:36:01    阅读次数:88
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```objec ...
分类:数据库   时间:2020-03-30 21:50:35    阅读次数:213
IDEA,SparkSql读取HIve中的数据
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:数据库   时间:2020-03-30 14:42:50    阅读次数:141
306条   上一页 1 2 3 4 5 ... 31 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!