最近,一直在研究一个有关“自然语言处理”的项目,在这个项目中,我们需要利用Spark进行编程,实现算法。而Spark内核是由Scala语言开发的,所以在使用Spark之前,我们必须配置好Scala,而Scala又是运行在JVM上的,所以在配置Scala之前,先要配置好JDK。下面是我个人的一些总结。 ...
分类:
编程语言 时间:
2016-04-08 14:33:35
阅读次数:
194
Spark的内核部分主要从以下几个方面介绍: 任务调度系统、I/0模块、通信控制模块、容错模块、shuffle模块 接下来注意几个概念: Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源,将程序转换并执行。 Driver Program:运行Applicat
分类:
其他好文 时间:
2016-03-17 21:41:13
阅读次数:
266
计划:阶段1:精通Spark内核阶段2:精通千万级的项目阶段3:机器学习JAVA本身不是伟大的语言,伟大的是JVM,构件分布式平台什么的,依赖的是JVM,不一定要JAVA语言可认为Scala是JAVA的升级语言,JAVA是支持面向对象的语言,而非纯面向对象的语言。Scala是一切皆对象,是纯面向..
分类:
其他好文 时间:
2016-01-29 03:39:51
阅读次数:
330
昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里...
分类:
其他好文 时间:
2016-01-17 16:03:01
阅读次数:
152
第一次接触王老师的大数据课程是在2014年底,当时在51CTO上有了spark六阶段,当时真的太吸引我了,但是由于是学生,所以没那么多钱去买教程,真的太后悔了,但是呢!后来看到了《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq和《...
分类:
其他好文 时间:
2016-01-01 16:59:21
阅读次数:
720
大数据入门至精通视频集,包含Scala、Hadoop、Spark、docker等王家林免费视频百度云地址:1 《大数据不眠夜:Spark内核天机解密(共140讲)》:51CTO在线观看(支持手机、平板、PC): http://edu.51cto.com/course/course_id-4703.h...
分类:
其他好文 时间:
2015-12-30 17:13:21
阅读次数:
123
1,《大数据不眠夜:Spark内核天机解密(共140讲)》:http://pan.baidu.com/s/1eQsHZAq2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu3,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/...
分类:
其他好文 时间:
2015-12-29 19:24:53
阅读次数:
190
这一节视频讲解了Spark在大数据系统中绝对的优势等,是未来的大数据之星。1,《大数据不眠夜:Spark内核天机解密(共140讲)》:填写图片摘要(选填)51CTO在线观看(支持手机、平板、PC):http://edu.51cto.com/course/course_id-4703.html百度云下...
分类:
其他好文 时间:
2015-12-24 23:37:28
阅读次数:
192