1. 集群角色 Application:基于spark的用户程序,包含了一个Driver program 和集群中多个Executor Driver Program:运行application的main()函数并自动创建SparkContext。Driver program通过一个SparkCont ...
分类:
其他好文 时间:
2019-08-24 18:56:17
阅读次数:
89
SparkContext可以说是Spark应用的发动机引擎,Spark Drive的初始化围绕这SparkContext的初始化。 SparkContext总览 sparkcontxt的主要组成部分 sparkEnv:spark运行环境,Executor是处理任务的执行器,依赖于SparkEnv的环 ...
分类:
其他好文 时间:
2019-07-18 19:25:12
阅读次数:
117
一、SparkContext原理1、图解二、SparkContext源码1、TaskScheduler创建###SparkContext.scala// Create and start the scheduler private[spark] var (schedulerBackend, task... ...
分类:
其他好文 时间:
2019-07-17 15:26:23
阅读次数:
125
创建或使用现有Session 从Spark 2.0 开始,引入了 SparkSession的概念,创建或使用已有的session 代码如下: 首先,使用了 builder 模式来创建或使用已存在的SparkSession,org.apache.spark.sql.SparkSession.Build ...
分类:
其他好文 时间:
2019-07-02 00:20:13
阅读次数:
109
spark围绕弹性分布式数据集(RDD)的概念展开的,RDD是一个可以并行操作的容错集合。 创建RDD的方法: 1.并行化集合(并行化驱动程序中现有的集合) 调用SparkContext的parallelize收集方法 2.外部数据集操作(引用外部系统存储的数据集) RDD操作 1.Transfor ...
分类:
其他好文 时间:
2019-06-25 16:59:55
阅读次数:
95
大数据教程:Transformation和Action算子演示 一、Transformation算子演示 val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) ...
分类:
其他好文 时间:
2019-06-17 17:17:14
阅读次数:
119
https://blog.csdn.net/lovechendongxing/article/details/81746988 Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。 1、Spark通过SparkCont ...
分类:
其他好文 时间:
2019-06-17 12:34:38
阅读次数:
114
大数据基础教程:创建RDD的二种方式 1.从集合中创建RDD val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) //这两个方法都有第二参数是一个默认值2 分 ...
分类:
其他好文 时间:
2019-06-12 16:37:50
阅读次数:
99
参考:https://blog.csdn.net/weixin_40137479/article/details/80320324 new SparkContext(conf)发生错误: 解决办法:将Scala2.11.x更换为Scala2.10.x File –> Other Settings – ...
分类:
编程语言 时间:
2019-05-25 19:44:32
阅读次数:
255
解决报错Error initializing SparkContext.
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby.
分类:
其他好文 时间:
2019-05-15 09:59:47
阅读次数:
433