Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交,并请求集群管理器对任务的调度。创建TaskScheduler的代码如下: val (sched, ts) = SparkContext.createTa ...
分类:
其他好文 时间:
2020-07-03 00:59:56
阅读次数:
63
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:
其他好文 时间:
2020-06-29 15:02:48
阅读次数:
96
代码: import re import datetime from pyspark.sql import SparkSession from pyspark import SparkContext from elasticsearch import Elasticsearch spark=Spar ...
分类:
编程语言 时间:
2020-06-14 17:09:05
阅读次数:
125
双value 1) intersection 函数签名 def intersection(other: RDD[T]): RDD[T] 函数说明 对源RDD和参数RDD求交集后返回一个新的RDD 保留分区中中较大分区数 val dataRDD1 = sparkContext.makeRDD(List ...
分类:
其他好文 时间:
2020-06-07 15:12:37
阅读次数:
65
ERROR spark.SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory (1024), overhead (384 MB), and ...
分类:
编程语言 时间:
2020-05-21 21:20:50
阅读次数:
191
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:
其他好文 时间:
2020-05-11 23:56:54
阅读次数:
213
源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler ...
分类:
其他好文 时间:
2020-05-10 23:08:55
阅读次数:
63
JDBC 以MySQL为例 读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author atgu ...
分类:
数据库 时间:
2020-05-09 23:21:09
阅读次数:
86
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:
数据库 时间:
2020-05-05 18:27:44
阅读次数:
87
Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S ...
分类:
其他好文 时间:
2020-05-05 09:12:49
阅读次数:
103