码迷,mamicode.com
首页 > 其他好文 > 详细

【spark】常用转换操作:join

时间:2018-05-07 13:51:09      阅读:101      评论:0      收藏:0      [点我收藏+]

标签:数据集   join   输入数据   数据   注意   pass   连接   转换   oop   

join就表示内连接

对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)

根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。

示例

val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5))
val pairRdd1 = sc.parallelize(arr1)
val arr2 = Array(("spark","fast"))
val pairRdd2 = sc.parallelize(arr2)
pairRdd1.join(pairRdd2).collect.foreach(println)

结果

(spark,(1,fast))
(spark,(2,fast))

注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。

【spark】常用转换操作:join

标签:数据集   join   输入数据   数据   注意   pass   连接   转换   oop   

原文地址:https://www.cnblogs.com/zzhangyuhang/p/9001816.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!