码迷,mamicode.com
首页 >  
搜索关键字:spark scala    ( 10387个结果
Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job
从Physical plan到Map-Reduce Plan 注:因为我们重点关注的是Pig On Spark针对RDD的执行计划,所以Pig物理执行计划之后的后端参考意义不大,这些部分主要分析流程,忽略实现细节。 入口类MRCompiler,MRCompilier按照拓扑顺序遍历物理执行计划中的节点,将其转换为MROperator,每个MROperator都代表一个map-reduce j...
分类:其他好文   时间:2014-05-10 08:46:07    阅读次数:366
Pig系统分析(8)-Pig可扩展性
本文是Pig系统分析系列中的最后一篇了,主要讨论如何扩展Pig功能,不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性。 补充说明:前两天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下。 UDFs 通过UDFs(用户自定义函数),可以自定义数据处理方法,扩展Pig功能。实际上,UDFS除了使用之前需要register/define外,和...
分类:其他好文   时间:2014-05-07 05:10:44    阅读次数:567
[codility]Triangle
最近在学scala语言,scala代码如下: import scala.collection.JavaConversions._ object Solution { def solution(A: Array[Int]): Int = { // write your code in Scala 2.10 // sort scala.uti...
分类:其他好文   时间:2014-05-07 04:20:38    阅读次数:352
Apache Spark源码走读之5 -- DStream处理的容错性分析
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:其他好文   时间:2014-05-06 00:58:21    阅读次数:465
spark 启动job的流程分析
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...
分类:其他好文   时间:2014-05-05 13:10:34    阅读次数:463
[codility]MaxProductOfThree
最近在学scala语言,scala代码如下: import scala.collection.JavaConversions._ import scala.util.control.Breaks._ object Solution { def solution(A: Array[Int]): Int = { // write your code in Scala 2.10...
分类:其他好文   时间:2014-05-04 09:42:56    阅读次数:372
[codility]Distinct
最近在学scala语言,scala代码如下: import scala.collection.JavaConversions._ object Solution { def solution(A: Array[Int]): Int = { // write your code in Scala 2.10 // using quick sort to so...
分类:其他好文   时间:2014-05-04 09:22:37    阅读次数:341
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生成 TaskSchedule...
分类:其他好文   时间:2014-05-04 09:08:02    阅读次数:379
[codility]CountDiv
最近在学scala语言,scala代码如下: import scala.collection.JavaConversions._ object Solution { def solution(A: Int, B: Int, K: Int): Int = { // write your code in Scala 2.10 var cnt: Int = 0...
分类:其他好文   时间:2014-05-04 09:06:08    阅读次数:307
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...
分类:其他好文   时间:2014-05-03 15:56:22    阅读次数:282
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!