声明:本文基于spark的programming guide,并融合自己的相关理解整理而成
Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上.
概述
Spark最主要的抽象就是RDD(resilient di...
分类:
其他好文 时间:
2014-11-18 14:51:18
阅读次数:
176
欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。比如我定义一个公司类:1case class ...
欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/
大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。
比如我定义一个公司类:
1
case class Company(name:String, ...
value reduceByKey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
分类:
其他好文 时间:
2014-11-06 19:08:13
阅读次数:
1293
1) union(otherRDD)RDD-->UnionRDD2) groupByKey(numPartitions)RDD-->ShuffledRDD-->MapPartitionsRDDgroupByKey() 只需要将 Key 相同的 records 聚合在一起,一个简单的 shuffle ...
分类:
其他好文 时间:
2014-10-30 20:46:35
阅读次数:
207
spark学习笔记
join跟union方法测试效果
join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W))
测试过如果 没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据
如:
res15: Array[(Int, Int)] =...
分类:
其他好文 时间:
2014-10-27 14:24:19
阅读次数:
117
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
基本概念:
SchemaRDD
RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan
运行架构:
sqlContext运行架构hiveContext运行架构
基本操作
原生RDD的操作parquet文件的操作j...
分类:
数据库 时间:
2014-10-23 12:29:53
阅读次数:
298
在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。
这就是本文的主题。...
分类:
其他好文 时间:
2014-10-19 18:38:46
阅读次数:
299
在一个RDD触发了一个action(比如count,collect)时,任务是如何被提交到?什么是Stage?DAGScheduler的作用是什么?它是如何划分Stage的?本文将基于源码,进行深入分析。...
分类:
其他好文 时间:
2014-10-19 00:08:01
阅读次数:
308
本文用实例介绍Spark中RDD和MapReduce相关的API。...