对于Array(('a',1), ('a',2), ('b',3), ('a',4), ('a',15))如何计算平均值呢:原来通过计算两边,第一遍计算总次数val a = sc.parallelize(data).map(x=>1)val b = sc.parallelize(data).map(...
分类:
其他好文 时间:
2015-08-11 14:06:57
阅读次数:
111
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockManager进行...
分类:
其他好文 时间:
2015-07-12 00:21:09
阅读次数:
151
val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0))
val b = sc.parallelize(Array(("123",8.0),("789",10)))
val c = a.join(b)
c.foreach(println)
/*
(123,(4.0,8.0))
...
分类:
其他好文 时间:
2015-06-04 22:48:56
阅读次数:
196
def seq(a:Int, b:Int) : Int ={ math.max(a,b)}def comb(a:Int, b:Int) : Int ={ a + b}val data = sc.parallelize(List((1,3),(1,2),(1, 4),(2,3)))data.aggre...
分类:
其他好文 时间:
2015-05-12 13:03:57
阅读次数:
211
用来找到两个rdd的交集,注意,最终的new rdd的分区数量取决于两个rdd中的最大分区数量。测试一下:val data1 = sc.parallelize(1 to 20,1)val data2 = sc.parallelize(1 to 5,2)val data3 = data1.inters...
分类:
其他好文 时间:
2015-05-11 17:49:13
阅读次数:
143
我理解,就是将RDD指定的RDD进行合并。 同时保留合并数据的分区。val data1 = sc.parallelize(1 to 20)data1.partitions.lengthval data2 = sc.parallelize(25 to 30)data2.partitions.lengt...
分类:
其他好文 时间:
2015-05-11 17:41:40
阅读次数:
128
这个很简单,就是取rdd中的唯一值val data1 = sc.parallelize(List(1,2,3,2,3,2,2))data1.distinct().collect输出123注意,可以调整执行并行度即data1.distinct().collect这样就会按三个partition进行并行...
分类:
其他好文 时间:
2015-05-11 17:26:47
阅读次数:
130
sample是在数据源取样。val data = sc.parallelize(1 to 20)data.sample(true,0.4).collectsample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。sample第二...
分类:
其他好文 时间:
2015-05-11 16:02:20
阅读次数:
314
val sc = new SparkContext(...)
val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache()
var ranks = sc.paralleliz...
分类:
其他好文 时间:
2015-05-07 18:53:41
阅读次数:
129
Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:1JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下:1valmyRDD=sc...
分类:
其他好文 时间:
2015-04-07 20:01:18
阅读次数:
285