今天,这个是spark的高级算子的讲解的最后一个章节,今天我们来介绍几个简单的算子, countByKey val rdd1 = sc.parallelize(List(("a", 1), ("b", 2), ("b", 2), ("c", 2), ("c", 1)))rdd1.countByKey ...
分类:
其他好文 时间:
2016-12-29 22:56:32
阅读次数:
161
0.parallelize 1.map 2.mapValues 3.flatMap 4.mapPartitions 5.mapPartitionsWithIndex 6.filter 7.reduce 8.reduceByKey 9.groupBy 10.groupByKey 11.partitio ...
分类:
其他好文 时间:
2016-11-07 01:38:03
阅读次数:
293
1. 初始化Spark 2. 创建RDD的方法 内存:Parallelize 或者 makeRDD 外部文件:textFile 3. 键值对 下面两者等价: reduceByKey 和sortByKey、groupByKey 1)返回key 以及 每个key的个数 (key, cnt) 2)返回 ( ...
分类:
其他好文 时间:
2016-09-13 11:39:22
阅读次数:
147
General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最初的 RDD。上一章例子中的 parallelize() 相当于 createRDD()。 对 ...
分类:
其他好文 时间:
2016-09-07 22:19:56
阅读次数:
225
map(func) 将原RDD中的每一个元素经过func函数映射为一个新的元素形成一个新的RDD。 示例: 其中sc.parallelize第二个参数标识RDD的分区数量 filter(func) def filter(f: T => Boolean): RDD[T] 原RDD中通过func函数结果 ...
分类:
其他好文 时间:
2016-09-01 21:24:24
阅读次数:
242
算法的数学分析部分:可参考网络,或者Google PageRank 论文。此处不做讨论,或以后我彻底搞明白再论述。 代码实现: val sc = new SparkContext(...) val links = sc.parallelize(Array(('A',Array('D')),('B',
分类:
其他好文 时间:
2016-02-28 16:34:29
阅读次数:
144
昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...
分类:
其他好文 时间:
2016-01-24 12:52:11
阅读次数:
471
Linus大神又在rant了!这次的吐槽对象是时下很火热的并行技术(parellism),并直截了当地表示并行计算是浪费所有人时间(“The whole “let’s parallelize” thing is a huge waste of everybody’s time.”)。大致意思是说乱序...
分类:
其他好文 时间:
2016-01-08 22:00:49
阅读次数:
269
sc.parallelize():创建RDD,建议使用xrangegetNumPartitions():获取分区数glom():以分区为单位返回listcollect():返回list(一般是返回driver program)例子:sc.textFile(path):读取文件,返回RDD官网函数:t...
分类:
其他好文 时间:
2015-12-30 23:42:48
阅读次数:
259
1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD...
分类:
其他好文 时间:
2015-11-28 14:52:54
阅读次数:
213