码迷,mamicode.com
首页 >  
搜索关键字:王家林    ( 170个结果
DT大数据梦工厂
如果您对spark充满期待,情有独钟王老师额课程就是您的相见恨晚的夜空中最亮的星,以下是公开课程可以尽情感受如下是IMF课程简介今天早上王老师讲解了Spark源码大师之路0022讲:Executor启动注册全流程彻底剖析主要内容:1Executor解析2Executor注册全流程源码王家林的第一个中..
分类:其他好文   时间:2016-03-31 15:09:47    阅读次数:365
Spark IMF传奇行动第22课:RDD的依赖关系彻底解密
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第22课:RDD的依赖关系彻底解密,笔记如下: 1,窄依赖是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、filter、union等
分类:其他好文   时间:2016-01-30 13:30:22    阅读次数:204
Spark IMF传奇行动第21课:从Spark架构中透视Job
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第21课:从Spark架构中透视Job,笔记如下: 默认一个worker有一个executor,也可以设置多个,当cpu利用不足时。 并行度也是被继承的 当Spark集群启动的时候,
分类:其他好文   时间:2016-01-29 00:27:22    阅读次数:230
Spark IMF传奇行动第20课:top N总结
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS今晚听了王家林老师的Spark IMF传奇行动第20课:top N,作业是:scala写topGroup,且对组名key排序代码如下:def main(args: Array[String]){ val conf = new...
分类:其他好文   时间:2016-01-26 01:41:30    阅读次数:354
Spark IMF传奇行动第19课:spark排序总结
今晚听了王家林老师的Spark IMF传奇行动第19课:spark排序,作业是:1、scala 实现二次排序,使用object apply 2;自己阅读RangePartitioner代码如下:/** * Created by 王家林 on 2016/1/10. */object Secondary...
分类:编程语言   时间:2016-01-25 00:02:08    阅读次数:633
Spark IMF传奇行动第18课:RDD持久化、广播、累加器总结
昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...
分类:其他好文   时间:2016-01-24 12:52:11    阅读次数:471
Spark IMF传奇行动第17课Transformations实战总结
今晚听了王家林老师的Spark IMF传奇行动第17课Transformations实战,作业是用SCALA写cogroup:def main(args: Array[String]): Unit = { val sc = sparkContext("Transformations") ...
分类:其他好文   时间:2016-01-23 07:48:38    阅读次数:169
Spark IMF传奇行动第16课RDD实战总结
今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战,课堂笔记如下:RDD操作类型:Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.c...
分类:其他好文   时间:2016-01-21 01:47:53    阅读次数:153
Spark3000门徒第15课RDD创建内幕彻底解密总结
今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下:Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;...
分类:其他好文   时间:2016-01-19 00:01:54    阅读次数:170
Spark3000门徒第14课spark RDD解密总结
今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R...
分类:其他好文   时间:2016-01-18 00:27:02    阅读次数:300
170条   上一页 1 2 3 4 5 ... 17 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!