1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Be...
分类:
其他好文 时间:
2015-11-18 19:37:49
阅读次数:
458
大数据1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu3,《Spark纯实战公益大讲坛》http://pan.baidu.com...
分类:
其他好文 时间:
2015-11-11 19:19:19
阅读次数:
236
王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!: 1,《大数据不眠夜:Spark内核天机解密(共100讲)》:O网页链接3,《Spark纯实战公益大讲坛》O网页链接力顶王家林老师,我辈之楷模,造福社会,值得尊敬!
分类:
其他好文 时间:
2015-11-10 22:26:27
阅读次数:
243
术语解释Executor多线程的方式运行每个partirion会被分配一个tasktaskset就是stage,一个stage由多个task组成广播变量类似于hadoop的DistributedCache
分类:
其他好文 时间:
2015-10-11 19:53:08
阅读次数:
211
随着基于内存的大数据计算框架——spark的火爆流行,用于编写spark内核的Scala语言也随之流行开来。由于其编写代码的简洁性,受到了越来越多程序员的喜爱。我今天给大家展示的时Scala2.10.4在CentOS 7下的安装与配置:一、Scala下载我们需要在Scala官网下载Scala2.10...
分类:
其他好文 时间:
2015-06-05 20:57:52
阅读次数:
131
以一个简单的WordCount代码为例sc.textFile("hdfs://...").flatMap(_.split(" ")).map(_,1).reduceByKey(_+_).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).saveAsTextFile("hdfs://....")以上代码的作用是读取指定位置的文件,...
分类:
其他好文 时间:
2015-05-15 09:08:38
阅读次数:
304
问题1:reduce task数目不合适 解决方案: 需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开...
分类:
其他好文 时间:
2015-01-26 13:50:06
阅读次数:
222
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案...
分类:
其他好文 时间:
2015-01-22 11:10:02
阅读次数:
149
spark内核揭秘-12-AppClient注册Master
一个资源大管家,其职责主要包括两个方面:
* Cluster资源的管理和Cluster的通讯管理
*
* 资源管理
*** Worker资源 RegisterWorker WorkDirCleanup
*** Driver资源 RequestSubmitDriver RequestKillDriver
*** App资源 RegisteredApplication
*** Executor资...
分类:
移动开发 时间:
2015-01-21 22:38:51
阅读次数:
299
spark内核揭秘-13-Worker中Executor启动过程源码分析
spark内核揭秘-13-Worker中Executor启动过程源码分析
spark内核揭秘-13-Worker中Executor启动过程源码分析
spark内核揭秘-13-Worker中Executor启动过程源码分析...
分类:
其他好文 时间:
2015-01-21 22:32:54
阅读次数:
307