Apache Spark的算子的作用

时间：2016-07-31 22:13:45 阅读：311 评论：0 收藏：0 [点我收藏+]

标签：

　首先，关于spark算子的分类，详细见http://www.cnblogs.com/zlslch/p/5723857.html

　　1、Transformation 变换/转换算子

　　1、map算子

　　2、flatMap算子

　　3、mapPartitions算子

　　4、union算子

　　5、cartesian算子

　　6、grouBy算子

　　7、filter算子

　　8、sample算子

　　9、cache算子　　

　　10、persist算子

　　11、mapValues算子

　　12、combineByKey算子

　　13、reduceByKey算子

　　14、join算子

　　2、Action 行动算子

　　1、foreach算子

　　2、saveAsTextFile算子

　　3、collect算子

　　4、count算

　　　简单地总结：

　　通过Action算子，触发Spark提交作业。

　　通过Cache算子，将数据缓存到内存。

　　技术分享

　　　　　　　　　　　　　　　　　　　　　　图1 Spark算子和数据空间

　　上图描述了Spark的输入、运行转换、输出。在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。
　　1）输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理。
　　2）运行：在Spark数据输入形成RDD后便可以通过变换算子，如fliter等，对数据进行作并将RDD转化为新的RDD，通过Action算子，触发Spark提交作业。如果数据需要复用，可以通过Cache算子，将数据缓存到内存。
　　3）输出：程序运行结束数据会输出Spark运行时空间，存储到分布式存储中（如saveAsTextFile输出到HDFS），或Scala数据或集合中（collect输出到Scala集合，count返回Scala int型数据）。Spark的核心数据模型是RDD，但RDD是个抽象类，具体由各子类实现，如MappedRDD、 ShuffledRDD等子类。 Spark将常用的大数据操作都转化成为RDD的子类。

Apache Spark的算子的作用

标签：

原文地址：http://www.cnblogs.com/zlslch/p/5723979.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行