第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章 为什么要学SparkSpark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...
分类:
数据库 时间:
2019-11-11 00:32:19
阅读次数:
534
SparkSQL采用Spark on Hive模式,hive只负责数据存储,Spark负责对sql命令解析执行。
SparkSQL基于Dataset实现,Dataset是一个分布式数据容器,Dataset中同时存储原始数据和元数据(schema) ...
分类:
数据库 时间:
2019-11-01 09:24:31
阅读次数:
82
当今时代,企业数据越发膨胀。数据是企业的价值,但数据处理也是一种技术挑战。在海量数据处理的场景,即使单机计算能力再强,也无法满足日益增长的数据处理需求。所以,分布式才是解决该类问题的根本解决方案。而在分布式领域,有两类典型产品,分别是分布式存储和分布式计算。用户只有将两者的特性充分利用,才可以真正发 ...
分类:
数据库 时间:
2019-10-31 18:07:32
阅读次数:
126
一:Sparksql列操作 初始化SparkContext及数据: import java.util.Arrays import org.apache.spark.SparkConfimport org.apache.spark.api.java.JavaSparkContextimport org ...
分类:
数据库 时间:
2019-10-20 10:35:33
阅读次数:
100
以前公司用的是spark-core,但是换工作后用的多是spark-sql。最近学习了很多spark-sql,在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本:https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCA ...
分类:
数据库 时间:
2019-10-13 20:59:48
阅读次数:
154
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 8. Dataset (DataFrame) 的 ...
分类:
数据库 时间:
2019-10-06 00:19:23
阅读次数:
116
执行时报错: org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class `cn.itcast.spark.sql.Intro$Person` without access to the ...
分类:
数据库 时间:
2019-09-30 23:57:00
阅读次数:
194
一、概述 组件 运行机制 转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器(原创翻译) 更高效 查询优化 优化:把filte ...
分类:
数据库 时间:
2019-09-19 19:35:50
阅读次数:
130
准备数据: 一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。 二、使用自定义无类型聚合函数 输出结果: ...
分类:
数据库 时间:
2019-09-05 15:16:11
阅读次数:
100
不可否认的是 SQL 是一个伟大的发明,它让增删改查的操作更加地便捷化,而且 SQL 的学习成本相对其他编程语言来说较低,被逼到会写 SQL 的运营和产品我都见过不少。。。 大数据行业跟 SQL 更是有不解之缘,可谓“万物皆可 SQL 化”,从Hive/SparkSQL等最原始的最普及的 SQL 查 ...
分类:
数据库 时间:
2019-08-28 11:13:47
阅读次数:
113