本文档基于Windows搭建本地JAVA Spark开发环境。 1 JDK 1.8安装 官网下载JDK。 注意JDK安装目录不可以包含空格,比如:C:\Java\jdk1.8.0_171,否则可能导致后续运行Spark报错(提示找不到java.exe)。 2 Spark安装(V2.3.1) 1、到s ...
分类:
其他好文 时间:
2018-06-29 00:03:45
阅读次数:
1109
Spark 的shuffle 服务是spark的核心,本文介绍了非ExternalShuffleClient的方式,看BlockService的整个架构。ShuffleClient是整个框架的基础,有init方法和fetchBlock两个方法。 BlockFetchingListener接口,onB ...
分类:
其他好文 时间:
2018-06-14 22:14:52
阅读次数:
218
环境: Spark2.1.0 、Hadoop-2.7.5 代码运行系统:Win 7在运行Spark程序写出文件(savaAsTextFile)的时候,我遇到了这个错误: 查到的还是什么window远程访问Hadoop的错误,最后查阅官方文档HADOOP-11064 后来在网上找到解决方案是:由于ha ...
分类:
编程语言 时间:
2018-06-13 11:45:34
阅读次数:
488
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: 2.转换,具体代码如下 scala版本: 注:1.上面代码全都已经测试通过,测试的环境为spark2 ...
分类:
编程语言 时间:
2018-06-12 14:49:13
阅读次数:
226
一简介 1.1 Spark概述 Apache Spark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通 ...
分类:
其他好文 时间:
2018-06-06 00:59:22
阅读次数:
1418
近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming,它也是本系列的主角,废话不多说,进入正题吧! 简单介绍 在有过1.6的s ...
分类:
其他好文 时间:
2018-06-02 17:10:16
阅读次数:
757
hortonworks的源码在github上能找到! https://github.com/hortonworks/spark2-release 找到对应版本release源码后下载到本地 使用ubuntu进行编译,必须在unix下面编译 spark项目使用了hortonworks的私人远程库! 地 ...
分类:
其他好文 时间:
2018-06-01 19:08:35
阅读次数:
746
学习一个工具的最好途径,就是使用它。在IT领域,在深入了解一个系统的原理、实现细节之前,应当先准备好它的运行环境或者源码阅读环境。如果能在实际环境下安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的工程师甚至能够猜出一些Spark在实现过程中采用的设计模... ...
分类:
其他好文 时间:
2018-05-21 12:42:09
阅读次数:
191
在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext catalog:目录 Spark2.0中引入了SparkSession的概念,SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession 当中,并且可以通过 ...
分类:
其他好文 时间:
2018-05-21 12:26:47
阅读次数:
282