标签:split 操作 运算 orm tac lock rtb 更新 tran
算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。数据转化为Spark中的数据块,通过BlockManager进行管理。
reduceByKey(func)=>(k,v) 对key一样的piar的value进行lambda
sortByKey()
groupByKey()
1 大量var的单一或迭代job 只读table的lookup;ML里的vector计算
2 job执行时有count事件
只读var(a large dataset) cached on workers,无论多少tasks只ship给worker一次-using efficient broadcast algorithm
driver: sc.broadcast([1,2,3])
worker: broadcasVar.value
1建一个表2求(k,v)的function3将此function放入map中
4spark自动创建一个closure包含这个function以及1所建立的表,一起发送给worker
计算第二个的时候,4将被spark重复
=>broadcast to all workers ,使4不用重复
1开始设置accum为0 2func:空行则accum+1 否则返回line.split(" ")
3将func为参用flatMap file.flatMap(func) 对每一行func,返回一seq为line以" "分割的每个word
basic spark or spark essentials(notes)
标签:split 操作 运算 orm tac lock rtb 更新 tran
原文地址:http://www.cnblogs.com/yumanman/p/7599491.html