码迷,mamicode.com
首页 > 其他好文 > 详细

spark:distinct算子实现原理

时间:2020-05-17 19:29:13      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:bsp   去重   nbsp   shuff   spark   使用   image   原理   red   

distinct的底层使用reducebykey巧妙实现去重逻辑

//使用reduceByKey或者groupbykey的shuffle去重思想
rdd.map(key=>(key,null)).reduceByKey((key,value)=>key)
.map(_._1)

技术图片

 

spark:distinct算子实现原理

标签:bsp   去重   nbsp   shuff   spark   使用   image   原理   red   

原文地址:https://www.cnblogs.com/hejunhong/p/12906280.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!