在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext catalog:目录 Spark2.0中引入了SparkSession的概念,SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession 当中,并且可以通过 ...
分类:
其他好文 时间:
2018-05-21 12:26:47
阅读次数:
282
#!/usr/bin/python # -*- coding: utf_8 -*- from pyspark import SparkConf, SparkContext import os, time if __name__ == '__main__': # Create SparkConf # ... ...
分类:
其他好文 时间:
2018-05-19 21:24:25
阅读次数:
165
由于业务需要,需要将大量文件按照目录分类的方式存储在HDFS上,这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles(), 众所周知,sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式: 下面是使用 fo ...
分类:
其他好文 时间:
2018-05-16 20:47:12
阅读次数:
482
原理: spark作业sparkcontext、DAGDAGSchedler、taskSchulder、会将编写算子、切割成大量的task,会提交到application的excutor上执行如何资源设置cup core和excutor较少,就会造成能并行处理的task数量较少,从而就会增加task ...
分类:
其他好文 时间:
2018-05-14 12:29:42
阅读次数:
138
一: Spark内核架构 1,Drive是运行程序的时候有main方法,并且会创建SparkContext对象,是程序运行调度的中心,向Master注册程序,然后Master分配资源。 应用程序: Application = Driver(驱动程序) + Executor(执行程序) Driver部 ...
分类:
其他好文 时间:
2018-05-11 13:06:27
阅读次数:
158
Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently ...
分类:
其他好文 时间:
2018-05-03 19:30:43
阅读次数:
638
from pyspark import SparkContext from pyspark import SparkConf from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.tree import Gradie ...
分类:
其他好文 时间:
2018-04-17 19:53:15
阅读次数:
265
当我们在使用spark编写mr作业是,最后都要涉及到调用reduce,foreach或者是count这类action来触发作业的提交,所以,当我们查看这些方法的源码时,发现底层都调用了SparkContext的runJob方法,而SparkContext的runJob方法又调用的DAGSchedul ...
分类:
其他好文 时间:
2018-04-05 23:10:53
阅读次数:
312
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 ...
分类:
其他好文 时间:
2018-04-03 10:59:10
阅读次数:
2454
spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop ...
分类:
其他好文 时间:
2018-03-08 18:06:11
阅读次数:
181