一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 ...
分类:
其他好文 时间:
2018-05-16 19:49:37
阅读次数:
151
以上是我们常用的dataframe的基础操作 具体见一下博客 https://blog.csdn.net/dabokele/article/details/52802150 SparkSQL官网 http://spark.apache.org/docs/1.6.2/api/scala/index.h ...
分类:
数据库 时间:
2018-05-16 13:17:24
阅读次数:
160
toDF()创建、createDataFrame()创建以及读取文件创建 ...
分类:
数据库 时间:
2018-05-15 14:01:21
阅读次数:
205
本文由 网易云 发布。 作者:范欣欣(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权。) 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比 ...
分类:
数据库 时间:
2018-05-07 19:47:09
阅读次数:
251
?机器学习——逻辑回归 ALS音乐推荐(上) Deep Learning(深度学习)学习笔记之系列(一) 深度学习(Deep Learning)资料大全(不断更新) SparkSQL—用之惜之 Spark系列1:开篇之组件云集 HDFS架构及原理 大数据家族成员概述 ...
分类:
其他好文 时间:
2018-05-06 14:46:31
阅读次数:
165
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大地提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL,SparkStreaming,SparkMLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算。比如用Spark做统计词频,即拿到一串文字进行WordCount,可以把这个文
分类:
其他好文 时间:
2018-04-26 14:54:19
阅读次数:
174
1 import org.apache.spark.sql.SparkSession 2 val spark = SparkSession 3 .builder() 4 .appName("Spark SQL basic example") 5 .getOrCreate() 6 //引入Spark的... ...
分类:
数据库 时间:
2018-04-22 18:40:24
阅读次数:
277
SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hbase配置: 拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下: guava-14.0.1.jar htrace-core-3.1.0-incubating.jar hbase ...
分类:
数据库 时间:
2018-04-16 18:43:20
阅读次数:
166
1)、 CAST和CONVERT的用法 SQL中的cast和convert都是用来将一种数据类型的表达式转换为另一种数据类型的表达式。 CAST和CONVERT提供相似的功能,只是语法不同。 在时间转化中一般用到convert,因为它比cast多加了一个style,可以转化成不同时间的格式。 使用 ...
分类:
数据库 时间:
2018-04-02 13:41:51
阅读次数:
3275
本文主要介绍SparkSQL的优化器系统Catalyst,其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等),因此通过本文的学习也可以基本了解所有其他SQL处理引擎的工作原理。 SQL优化器核心执行策略主 ...
分类:
数据库 时间:
2018-03-18 20:05:41
阅读次数:
356