搜索关键字：spark shuffle，搜索到7773个结果！码迷,mamicode.com！

flex 圆形布局

xmlns:s="library://ns.adobe.com/flex/spark" xmlns:mx="library://ns.adobe.com/flex/mx" creationComplete="init(event)"> import mx.core.IVisualElement; import mx.core.IVisualElementContai...

分类：其他好文时间：2014-07-22 23:05:55 阅读次数：338

Apache Spark源码走读之5 -- DStream处理的容错性分析

在流数据的处理过程中，为了保证处理结果的可信度(不能多算，也不能漏算)，需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中，不能多算，比较容易理解。那么它又是如何作到即使数据处理结点被重启，在重启之后这些数据也会被再次处理呢？

分类：其他好文时间：2014-05-06 00:58:21 阅读次数：465

spark 启动job的流程分析

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...

分类：其他好文时间：2014-05-05 13:10:34 阅读次数：463

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成 TaskSchedule...

分类：其他好文时间：2014-05-04 09:08:02 阅读次数：379

RDD的依赖关系

RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...

分类：其他好文时间：2014-05-03 15:56:22 阅读次数：282

Hadoop初学指南(5)--MapReduce入门

本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。MR由两个阶段组成：Map和Reduce，在Hadoop中用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单..

分类：其他好文时间：2014-05-03 01:53:48 阅读次数：519

spark源码笔记

1。国际化如添加朋友Friends是英文，可以找着相关的类，并在国际化配置文件中添加key 在项目中全局搜索“Friends”，将得到的结果集全部展开，找到这两个文件：在国际化配置文件spark_i18n_zh_CN.properties 中增加 custum.friends=朋友修...

分类：其他好文时间：2014-05-01 19:52:51 阅读次数：470

spark开发环境

利用build.xml导入eclipse点击Run——Run Configurations点击“Main”Name填写：SparkProject：Spark（选择Spark工程）Main class：org.jivesoftware.launcher.Startup（启动类）勾选Stop in ma...

分类：其他好文时间：2014-05-01 11:51:57 阅读次数：366

flare-spork: 自己维护的Pig on Spark项目

很早以前有个Pig Spork分支，尝试把Pig迁移到Spark上，但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接，把Spark部分的代码迁移到了Pig 0.12.0上，并且升级了依赖和版本，升级为Scala 2.10.3，Spark 0.9.1，且兼容Hadoop 2.2.0。目前项目在Github上，地址。打算参考Spork已经做的一些东西，继续Pig on Spark的开发。 Github...

分类：其他好文时间：2014-04-30 22:15:39 阅读次数：360

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析，源代码下载地址：https://github.com/cloudera/spark.git 下载方式：gitclone url ./spark 进入spark目录，执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译使用sbt编译spa...

分类：其他好文时间：2014-04-29 13:13:22 阅读次数：446

共7773条上一页 1 ... 775 776 777 778 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)