码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark 学习(二) RDD及共享变量
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成        Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上. 概述     Spark最主要的抽象就是RDD(resilient di...
分类:其他好文   时间:2014-11-18 14:51:18    阅读次数:176
Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。比如我定义一个公司类:1case class ...
分类:Windows程序   时间:2014-11-09 15:06:03    阅读次数:329
Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/ 大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。 比如我定义一个公司类: 1 case class Company(name:String, ...
分类:Windows程序   时间:2014-11-09 13:59:12    阅读次数:404
Spark wordcount 编译错误 -- reduceByKey is not a member of RDD
value reduceByKey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
分类:其他好文   时间:2014-11-06 19:08:13    阅读次数:1293
RDD的转换操作---RDD转换过程
1) union(otherRDD)RDD-->UnionRDD2) groupByKey(numPartitions)RDD-->ShuffledRDD-->MapPartitionsRDDgroupByKey() 只需要将 Key 相同的 records 聚合在一起,一个简单的 shuffle ...
分类:其他好文   时间:2014-10-30 20:46:35    阅读次数:207
Spark学习笔记
spark学习笔记 join跟union方法测试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W)) 测试过如果  没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据 如: res15: Array[(Int, Int)] =...
分类:其他好文   时间:2014-10-27 14:24:19    阅读次数:117
sparkSQL1.1入门之十:总结
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。 基本概念: SchemaRDD RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan 运行架构: sqlContext运行架构hiveContext运行架构 基本操作 原生RDD的操作parquet文件的操作j...
分类:数据库   时间:2014-10-23 12:29:53    阅读次数:298
Spark技术内幕: Task向Executor提交的源码解析
在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。 这就是本文的主题。...
分类:其他好文   时间:2014-10-19 18:38:46    阅读次数:299
Spark技术内幕:Stage划分及提交源码分析
在一个RDD触发了一个action(比如count,collect)时,任务是如何被提交到?什么是Stage?DAGScheduler的作用是什么?它是如何划分Stage的?本文将基于源码,进行深入分析。...
分类:其他好文   时间:2014-10-19 00:08:01    阅读次数:308
Spark RDD API详解(一) Map和Reduce
本文用实例介绍Spark中RDD和MapReduce相关的API。...
分类:Windows程序   时间:2014-10-09 02:10:47    阅读次数:367
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!