Spark 编程基础

时间：2016-09-13 11:39:22 阅读：147 评论：0 收藏：0 [点我收藏+]

标签：

1. 初始化Spark

import org.apache.spark.{SparkContext, SparkConf}

val conf=new SparkConf().setAppName("RDD1").setMaster("local")
val sc=new SparkContext(conf)

2. 创建RDD的方法

内存：Parallelize 或者 makeRDD

外部文件：textFile

//1.  both Parallelize and makeRDD could create RDD from In-Memory
 val distData=sc.parallelize(data)                   // parallelize
 val distData1=sc.makeRDD(data)                 // makeRDD 

//2 textFile could create RDD from files
val distFile=sc.textFile("E:/Java_WS/ScalaDemo/data/wc.txt")

3. 键值对

下面两者等价：

myRDD. map (s=> (s,1))
myRDD. map (_,1)

reduceByKey 和sortByKey、groupByKey

distFile.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)   
distFile.flatMap(_.split(" ")).map(s=>(s,1)).sortByKey().collect().foreach(println)
distFile.flatMap(_.split(" ")).map(s=>(s,1)).groupByKey().foreach(println)

1）返回key 以及每个key的个数（key, cnt)

2）返回 (key,value) 排序后的

3）返回(key, (value1,value2...))

4. RDD 持久化　　

persist() 或 cache()

unpersist() 可以删除缓存RDD

5. 广播变量和累加器

通过sc.broadcast(v) 和 sc.accumulator(初始值，comments)定义
通过value访问其值。
广播变量不能修改了
累加器只能通过add 或者 +=修改

//SparkContext.broadcast(v)  is a broadcast variable, could replace v in any place of the cluster
val broadcastVar=sc.broadcast(Array(1,2,3))
println(broadcastVar.value(0),broadcastVar.value(1),broadcastVar.value(2))
    
val accum=sc.accumulator(0,"My Accumulator")
sc.parallelize(Array(1,2,3,4)).foreach(x=>accum+=x)
println(accum.value)

Spark 编程基础

标签：

原文地址：http://www.cnblogs.com/skyEva/p/5867472.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行