码迷,mamicode.com
首页 >  
搜索关键字:sparkcontext    ( 295个结果
SparkSession
在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext catalog:目录 Spark2.0中引入了SparkSession的概念,SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession 当中,并且可以通过 ...
分类:其他好文   时间:2018-05-21 12:26:47    阅读次数:282
spark-day1
#!/usr/bin/python # -*- coding: utf_8 -*- from pyspark import SparkConf, SparkContext import os, time if __name__ == '__main__': # Create SparkConf # ... ...
分类:其他好文   时间:2018-05-19 21:24:25    阅读次数:165
Spark:sc.textFiles() 与 sc.wholeTextFiles() 的区别
由于业务需要,需要将大量文件按照目录分类的方式存储在HDFS上,这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles(), 众所周知,sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式: 下面是使用 fo ...
分类:其他好文   时间:2018-05-16 20:47:12    阅读次数:482
spark作业调优(一)-------合理分配资源
原理: spark作业sparkcontext、DAGDAGSchedler、taskSchulder、会将编写算子、切割成大量的task,会提交到application的excutor上执行如何资源设置cup core和excutor较少,就会造成能并行处理的task数量较少,从而就会增加task ...
分类:其他好文   时间:2018-05-14 12:29:42    阅读次数:138
Spark运行时的内核架构以及架构思考
一: Spark内核架构 1,Drive是运行程序的时候有main方法,并且会创建SparkContext对象,是程序运行调度的中心,向Master注册程序,然后Master分配资源。 应用程序: Application = Driver(驱动程序) + Executor(执行程序) Driver部 ...
分类:其他好文   时间:2018-05-11 13:06:27    阅读次数:158
Spark 异常汇总(持续更新)
Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently ...
分类:其他好文   时间:2018-05-03 19:30:43    阅读次数:638
pyspark GBT
from pyspark import SparkContext from pyspark import SparkConf from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.tree import Gradie ...
分类:其他好文   时间:2018-04-17 19:53:15    阅读次数:265
Spark 源码阅读——任务提交过程
当我们在使用spark编写mr作业是,最后都要涉及到调用reduce,foreach或者是count这类action来触发作业的提交,所以,当我们查看这些方法的源码时,发现底层都调用了SparkContext的runJob方法,而SparkContext的runJob方法又调用的DAGSchedul ...
分类:其他好文   时间:2018-04-05 23:10:53    阅读次数:312
3 pyspark学习---sparkContext概述
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 ...
分类:其他好文   时间:2018-04-03 10:59:10    阅读次数:2454
spark streaming task 序列化源码
spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop ...
分类:其他好文   时间:2018-03-08 18:06:11    阅读次数:181
295条   上一页 1 ... 8 9 10 11 12 ... 30 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!