1.spark的核心概念 (1)Application 表示应用程序,包含一个DriverProgram和若干Executor。(编写的spark代码) (2)Driverprogram Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的
分类:
其他好文 时间:
2019-01-03 15:02:14
阅读次数:
165
1.SparkCore的核心功能 (1)SparkContext: 通常而言,DriverApplication的执行与输出都是通过SparkContext完成的,在正式提交Application之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、web服务等内容。
分类:
其他好文 时间:
2019-01-02 21:41:45
阅读次数:
194
一:首先将我们从文本中读取的数据映射到表也就是视图 eg: $>cat b.txt 1 ded 2 dsfre 3 sfs 4 fr $>val sc = spark.sparkContext #创建SparkContext $>val rdd = sc.textFile("file:///home ...
分类:
数据库 时间:
2019-01-01 14:07:47
阅读次数:
638
3.1 SparkContext概述 SparkConf负责配置参数,主要通过ConcurrentHaspMap来维护各种Spark的配置属性。 ...
分类:
其他好文 时间:
2018-12-24 18:19:51
阅读次数:
112
反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:
其他好文 时间:
2018-11-24 14:21:32
阅读次数:
210
Spark版本 1.3 Spark源码 Spark.createTaskScheduler TaskScheduler初始化过程 1.// SparkContext中 /** * Create a task scheduler based on a given master URL. * Retur... ...
分类:
其他好文 时间:
2018-11-19 21:44:32
阅读次数:
206
关于spark 的详细操作请参照spark官网 scala 版本:2.11.8 1.添加spark maven依赖,如需访问hdfs,则添加hdfs依赖 2.sparkcontext 的创建 sc 使用结束,记得关闭 3.创建rdd 1)parallelized 方法 2)读取外部数据 一个放重要的 ...
分类:
其他好文 时间:
2018-10-27 11:00:10
阅读次数:
139
SparkContext将应用程序代码分发到各Executors,最后将任务(Task)分配给executors执行 Application: Appliction都是指用户编写的Spark应用程序,其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码 Driver: ...
分类:
其他好文 时间:
2018-10-15 14:26:20
阅读次数:
161
sparkcontext是spark应用程序的入口,每个spark应用都会创建sparkcontext,用于连接spark集群来执行计算任务.在sparkcontext初始化过程中会创建SparkEnv,SparkUI,TaskSchedule,DAGSchedule等多个核心类,我们会逐个分析他们 ...
分类:
其他好文 时间:
2018-08-27 21:57:22
阅读次数:
172
# -*- coding:utf-8 -*- from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext import math appName = "jhl_spark_1" ... ...
分类:
其他好文 时间:
2018-08-27 18:24:53
阅读次数:
304