搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

flex 圆形布局

xmlns:s="library://ns.adobe.com/flex/spark" xmlns:mx="library://ns.adobe.com/flex/mx" creationComplete="init(event)"> import mx.core.IVisualElement; import mx.core.IVisualElementContai...

分类：其他好文时间：2014-07-22 23:05:55 阅读次数：338

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

从Physical plan到Map-Reduce Plan 注：因为我们重点关注的是Pig On Spark针对RDD的执行计划，所以Pig物理执行计划之后的后端参考意义不大，这些部分主要分析流程，忽略实现细节。入口类MRCompiler，MRCompilier按照拓扑顺序遍历物理执行计划中的节点，将其转换为MROperator，每个MROperator都代表一个map-reduce j...

分类：其他好文时间：2014-05-10 08:46:07 阅读次数：366

Pig源码分析: 简析执行计划的生成

本文通过跟代码的方式，分析从输入一批Pig-latin到输出物理执行计划（与launcher引擎有关，一般是MR执行计划，也可以是Spark RDD的执行算子）的整体流程。不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job，而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤（方法和类）。...

分类：其他好文时间：2014-05-08 04:00:42 阅读次数：407

Pig系统分析(8)-Pig可扩展性

本文是Pig系统分析系列中的最后一篇了，主要讨论如何扩展Pig功能，不仅介绍Pig本身提供的UDFs扩展机制，还从架构上探讨Pig扩展可能性。补充说明：前两天同事发现twitter推动的Pig On Spark项目：Spork，准备研究下。 UDFs 通过UDFs（用户自定义函数），可以自定义数据处理方法，扩展Pig功能。实际上，UDFS除了使用之前需要register/define外，和...

分类：其他好文时间：2014-05-07 05:10:44 阅读次数：567

Apache Spark源码走读之5 -- DStream处理的容错性分析

在流数据的处理过程中，为了保证处理结果的可信度(不能多算，也不能漏算)，需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中，不能多算，比较容易理解。那么它又是如何作到即使数据处理结点被重启，在重启之后这些数据也会被再次处理呢？

分类：其他好文时间：2014-05-06 00:58:21 阅读次数：465

spark 启动job的流程分析

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...

分类：其他好文时间：2014-05-05 13:10:34 阅读次数：463

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成 TaskSchedule...

分类：其他好文时间：2014-05-04 09:08:02 阅读次数：379

RDD的依赖关系

RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...

分类：其他好文时间：2014-05-03 15:56:22 阅读次数：282

spark源码笔记

1。国际化如添加朋友Friends是英文，可以找着相关的类，并在国际化配置文件中添加key 在项目中全局搜索“Friends”，将得到的结果集全部展开，找到这两个文件：在国际化配置文件spark_i18n_zh_CN.properties 中增加 custum.friends=朋友修...

分类：其他好文时间：2014-05-01 19:52:51 阅读次数：470

flare-spork: 自己维护的Pig on Spark项目

很早以前有个Pig Spork分支，尝试把Pig迁移到Spark上，但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接，把Spark部分的代码迁移到了Pig 0.12.0上，并且升级了依赖和版本，升级为Scala 2.10.3，Spark 0.9.1，且兼容Hadoop 2.2.0。目前项目在Github上，地址。打算参考Spork已经做的一些东西，继续Pig on Spark的开发。 Github...

分类：其他好文时间：2014-04-30 22:15:39 阅读次数：360

共7004条上一页 1 ... 698 699 700 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)