码迷,mamicode.com
首页 > 其他好文 > 详细

04、常用RDD操作

时间:2017-07-26 22:03:38      阅读:133      评论:0      收藏:0      [点我收藏+]

标签:ace   text   div   n个元素   ble   rtb   idt   文件中   class   

1、常用transformation介绍

操作

介绍

map

将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD

filter

对RDD中每个元素进行判断,如果返回true则保留,返回false则剔除。

flatMap

与map类似,但是对每个元素都可以返回一个或多个新元素。

gropuByKey

根据key进行分组,每个key对应一个Iterable<value>

reduceByKey

对每个key对应的value进行reduce操作。

sortByKey

sortBy

根据key进行排序操作。

sortBy,传入的是一个(T) => K 转换函数,即可以根据key也可以根据value进行排序

join

对两个包含<key,value>对的RDD进行join操作,每个key join上的pair,都会传入自定义函数进行处理。

cogroup

同join,但是是每个key对应的Iterable<value>都会传入自定义函数进行处理。

2、常用action介绍

操作

介绍

reduce

将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合,值与第三个元素聚合,值与第四个元素聚合,以此类推。

collect

将RDD中所有元素获取到本地客户端。

count

获取RDD元素总数。

take(n)

获取RDD中前n个元素。

saveAsTextFile

将RDD元素保存到文件中,对每个元素调用toString方法

countByKey

对每个key对应的值进行count计数。

foreach

遍历RDD中的每个元素。

 
 
 

04、常用RDD操作

标签:ace   text   div   n个元素   ble   rtb   idt   文件中   class   

原文地址:http://www.cnblogs.com/jiangzhengjun/p/7241768.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!