(1)避免重复的RDD案例:valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile,并且读取的是同一个文件,造成了多次的磁盘读取,如果是hi同一个文件,读取一次即可。(2)尽可能多的复用一个RD
分类:
其他好文 时间:
2019-01-04 12:34:43
阅读次数:
148
典型的transformation和action ...
分类:
其他好文 时间:
2016-09-27 19:38:14
阅读次数:
152
本节课通过代码实战演示RDD中最重要的两个算子,join和cogroupjoin算子代码实战://通过代码演示join算子valconf=newSparkConf().setAppName("RDDDemo").setMaster("local")valsc=newSparkContext(conf)valarr1=Array(Tuple2(1,"Spark"),Tuple2(2,"Hadoop"),Tuple2(3,"Tachyon"..
分类:
其他好文 时间:
2016-05-14 01:12:13
阅读次数:
493
内容:1、map、filter、flatmap等操作回顾;2、reduceBykey、groupBykey;3、jion、cogroug;算子共同特点:都是最常用的算子,构建复杂算法的基石,都是lazy级别的,不属于action创建SparkContext是Spark的起点,只有创建SparkContext,才能创建RDD==========map============..
分类:
其他好文 时间:
2016-02-08 17:31:39
阅读次数:
311