码迷,mamicode.com
首页 > 移动开发 > 详细

spark中map和mapPartitions算子的区别

时间:2020-04-12 20:49:23      阅读:80      评论:0      收藏:0      [点我收藏+]

标签:rdd   接收   task   art   数据库   cti   执行   区别   UNC   

区别:

  1、map是对rdd中每一个元素进行操作

  2、mapPartitions是对rdd中每个partition的迭代器进行操作


mapPartitions优点:

  1、若是普通map,比如一个partition中有一万条数据,那么function要执行一万次,而使用mapPartions,一个task只执行一次function,function一次接收所有数据,只执行一次,性能高

  2、若在map中需要频繁创建额外对象(如将rdd的数据通过jdbc写入数据库,map需要为每条数据创建一个链接,mapPartions只是为一个partition创建一条链接)

缺点:

  mapPartions可能发生OOM内存溢出,而map不会,因为一个partition可能会很大

spark中map和mapPartitions算子的区别

标签:rdd   接收   task   art   数据库   cti   执行   区别   UNC   

原文地址:https://www.cnblogs.com/dretrtg/p/12687246.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!