标签:弹性 驱动器 方法 属性 组件 count set 参数 数据分析
每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark;驱动程序管理多个执行器节点,可以用SparkContext来创建RDD。
sc.textFile("readme.md")
filter()
:接收一个函数,并将RDD中满足该函数的元素组成新的RDD。map()
:接收一个函数,把函数作用于RDD每个元素,所有函数返回结果组成了新的RDD。RDD.distinct()
来生成一个只包含不同元素的新RDD。但distinct的开销很大,因为所有数据需要经过网络进行混洗(shuffle).RDD.persist()
把这个RDD缓存起来(持久化)。collect()
,可以用来获取整个RDD中的数据,但这要求RDD的数据是较小规模的。reduce()
:接收一个函数作为参数,这个函数要操作两个相同类型的RDD数据并返回一个同样类型的新元素。一个简单的例子就是函数“+”。count()
标签:弹性 驱动器 方法 属性 组件 count set 参数 数据分析
原文地址:https://www.cnblogs.com/coding-gaga/p/11443982.html