1. Spark 程序在运行的时候分为 Driver 和 Executor 两部分; 2. Spark 的程序编写是基于 SparkContext 的,具体来说包含两方面: a) Spark 编程的核心基础 RDD, 是由 SparkContext 来最初创建 b) Spark 程序的调度优化也是基 ...
分类:
其他好文 时间:
2017-12-15 22:33:00
阅读次数:
134
提交Spark程序的机器一般一定和Spark集群在同样的网络环境中(Driver频繁和Executors通信),且其配置和普通的Worker一致 1. Driver: 具有main方法的,初始化 SparkContext 的程序。Driver运行在提交Spark任务的机器上。 Driver 部分的代 ...
分类:
其他好文 时间:
2017-12-14 20:58:04
阅读次数:
106
package com.ghc.bigdata import org.apache.spark.{SparkConf,SparkContext} /** * Created by Yu Li on 12/6/2017. */ object SparkScalaApp { def main(args: ...
分类:
其他好文 时间:
2017-12-06 13:03:45
阅读次数:
157
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf = conf) pyspark的初始化,也就是入口, ...
分类:
其他好文 时间:
2017-12-05 12:02:49
阅读次数:
152
package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import org.apache.spark.graphx.util.GraphGener... ...
分类:
其他好文 时间:
2017-11-24 16:59:14
阅读次数:
204
package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkContext} //spark中的RDD测试 object RddTest { def mai... ...
RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行 ...
分类:
其他好文 时间:
2017-11-08 14:55:19
阅读次数:
185
转载自:http://blog.sina.com.cn/s/blog_15fc03d810102wto0.html 1.驱动器节点(Driver) Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操 ...
分类:
其他好文 时间:
2017-11-04 13:34:32
阅读次数:
364
from pyspark import SparkContext from pyspark import SparkConf string_test = 'pyspark_test' conf = SparkConf().setAppName(string_test).setMaster('yarn ...
分类:
编程语言 时间:
2017-10-30 19:41:16
阅读次数:
297
非交互式运行Spark Application 的例子 $ cat Count.py import sysfrom pyspark import SparkContext if __name__ == "__main__": sc = SparkContext()logfile = sys.argv ...
分类:
移动开发 时间:
2017-10-29 11:21:41
阅读次数:
225