码迷,mamicode.com
首页 > 其他好文 > 详细

spark通过combineByKey算子实现条件性聚合的方法

时间:2018-05-26 17:57:56      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:条件性聚合   spark   combineByKey   

实际开发过程中遇到了需要实现选择性聚合的场景,即对于某一个key对应的数据,满足条件的记录进行聚合,不满足条件的则不聚合。

使用spark处理这种计算场景时,想到了使用combineByKey算子,先将输入数据中的value映射成含一个元素的ArrayBuffer(scala中相当于java中的ArrayList),然后在聚合时对满足聚合条件的记录聚合后覆盖这一个ArrayBuffer,不满足条件的待聚合的两条记录都填入ArrayBuffer。最后调用flatMap将ArrayBuffer中的元素分拆。

spark通过combineByKey算子实现条件性聚合的方法

标签:条件性聚合   spark   combineByKey   

原文地址:http://blog.51cto.com/11091005/2120619

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!