昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里...
分类:
其他好文 时间:
2016-01-17 16:03:01
阅读次数:
152
今晚听了王家林老师的第12课Spark HA实战,课堂笔记以及作业如下:Spark HA需要安装zookeeper,推荐稳定版3.4.6.1.下载zookeeper3.4.6,2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myidspark-en....
分类:
其他好文 时间:
2016-01-16 01:26:49
阅读次数:
178
今晚听了王家林老师的第10课Java开发Spark实战,课后作业是:用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml com.dt.spark SparkApps 0.0.1-SNAPSHOT jar org.apache.spark ...
分类:
编程语言 时间:
2016-01-12 01:23:18
阅读次数:
305
今晚听了王家林老师的第9课IDEA中开发Spark实战,课后作业是:在Idea中编写广告点击排名的程序并提交集群测试,IDEA社区版本就够用,Ultimate没必要还要钱程序如下:object WordCountCluster { def main(args: Array[String]){ ...
分类:
其他好文 时间:
2016-01-10 23:59:07
阅读次数:
470
今晚听了王家林老师的第8课IDE中开发Spark实战,课后作业是:在Eclipse中编写广告点击排名的程序并测试,程序如下:object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象S...
分类:
其他好文 时间:
2016-01-10 07:01:35
阅读次数:
167
今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:1spark是分布式 基于内存 特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。3spark不能取...
分类:
其他好文 时间:
2016-01-09 01:00:35
阅读次数:
235
今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下:1 硬件环境:至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法。上网方式:Nat,root权限登录,避免权限问题2.软件...
分类:
其他好文 时间:
2016-01-06 23:17:06
阅读次数:
215
今晚听了王家林老师的Spark 3000门徒系列第四课scala模式匹配和类型参数,总结如下:模式匹配:def data(array:Array[String]){ array match{ case Array(a,b,c) => println(a+b+c) case Array("spar.....
分类:
其他好文 时间:
2016-01-05 01:31:01
阅读次数:
162
今晚听了王家林老师3000门徒spark系列课程的第三课,讲述了scala函数,下面写一下心得:普通函数:def fun1(name:String){println(name)}函数赋值给变量:val fun1 = functionName _匿名函数:val fun2 = (name:String...
分类:
其他好文 时间:
2016-01-04 01:25:00
阅读次数:
397
第一次接触王老师的大数据课程是在2014年底,当时在51CTO上有了spark六阶段,当时真的太吸引我了,但是由于是学生,所以没那么多钱去买教程,真的太后悔了,但是呢!后来看到了《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq和《...
分类:
其他好文 时间:
2016-01-01 16:59:21
阅读次数:
720