首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的风格: 执行结果: 从...
下面看下union的使用:
使用collect操作查看一下执行结果:
再看下groupByKey的使用:
执行结果:
join操作就是一个笛卡尔积操作的过程,如下示例:
对rdd3和rdd4执行join操作:
使用collect查看执行结果:
可以看出join操作完全就是一个笛卡尔积的操作...
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.2.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-B...
Linus大神又在rant了!这次的吐槽对象是时下很火热的并行技术(parellism),并直截了当地表示并行计算是浪费所有人时间(“The
whole “let’s parallelize” thing is a huge waste of everybody’s time.”)。大致意思是说乱序性能快、提高缓存容量、降功耗。当然笔者不打算正面讨论并行的是是非非(过于宏伟的主题),因为Lin...
分类:
其他好文 时间:
2015-01-10 16:38:03
阅读次数:
139
并行化scala集合(Parallelize)//加载数据1~10val num=sc.parallelize(1 to 10)//每个数据项乘以2,注意 _*2记为一个函数(fun) val doublenum = num.map(_*2) //内存缓存数据doublenum.cache() //...
分类:
其他好文 时间:
2014-10-02 22:54:43
阅读次数:
266