码迷,mamicode.com
首页 > 其他好文 > 详细

spark的rdd详解1

时间:2018-08-18 21:13:41      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:ash   分享图片   选择   支持   传输数据   传输   9.png   src   操作   

 

1,rdd的转换和行动操作

 

技术分享图片

 

 

2,创建rdd的2种方式

1,通过hdfs支持的文件系统,没有真正把数据放rdd,只记录了一下元数据

2,通过scala的集合或者数组并行化的创建rdd

技术分享图片

 

3,rdd的5大特点

1,rdd是分区的,可以指定分区数

2,算子的方法都会作用在每个分区

3,rdd之前有一系列的依赖,所有依赖形成DAG图,DAG计算单位是阶段

4,k-v的rdd可以选择分区器,默认的是hash-partitioned

5,会选择最优的位置计算每个分区,避免跨网络传输数据

 技术分享图片

 

spark的rdd详解1

标签:ash   分享图片   选择   支持   传输数据   传输   9.png   src   操作   

原文地址:https://www.cnblogs.com/yeyusheng/p/9498582.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!