Spark1.0.0可以通过以下几种方式来对Spark应用程序进行监控:
Spark应用程序的WebUI或者Spark Standalone的集群监控指标,然后通过支持指标收集的集群监控系统,如ganglia进行监控辅助监控工具
1:WebUI
Spark应用程序提交后,driver和Executor之间不断的交换运行信息,可以通过driver的4...
分类:
其他好文 时间:
2014-06-16 20:12:51
阅读次数:
325
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD,及其在内存上的容错,内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In...
分类:
其他好文 时间:
2014-06-14 20:42:37
阅读次数:
326
Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。
本文将带领你进入Spark的世界,首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出:通用,易用,高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式,交互式,实时查询,迭代...
分类:
其他好文 时间:
2014-06-14 11:57:03
阅读次数:
288
图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。Graphx是一些常见图算法在Spark上的并行化实现,同时提供了丰富的API接口。本...
分类:
其他好文 时间:
2014-06-12 21:33:34
阅读次数:
427
主要包含4个章节:1. Java 领域的即时通信的解决方案2. 搭建 Openfire
服务器3. 使用客户端测试我们搭建的 Openfire 服务器4. Smack 和 ASmack一、Java领域的即时通信的解决方案
Java领域的即时通信的解决方案可以考虑openfire+spark+smac...
分类:
其他好文 时间:
2014-06-12 14:58:35
阅读次数:
405
Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数...
分类:
其他好文 时间:
2014-06-11 06:59:31
阅读次数:
288
共享内存区是可用IPC形式中最快的。一旦内存区映射到共享它的进程的地址空间,进程间数据的传递就不再涉及内核。然而往该共享内存区存放信息或从中取走信息的进程间通常需要某种形式的同步。不再涉及内核是指:进程不再通过执行任何进入内核的系统调用来彼此传递数据。内核必须建立允许各个进程共享该内存区的内存映射关系,然后一直管理内存区。
默认情况下通过fork派生的子进程并不与其父进程共享内存区。
mmap...
分类:
系统相关 时间:
2014-06-11 06:34:25
阅读次数:
439
1:Spark1.0.0属性配置方式
Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。
在Spark1.0.0提供了3种方式的属性配置:
SparkConf方式
SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,...
分类:
其他好文 时间:
2014-06-10 14:47:43
阅读次数:
280
前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。有不明白Spark的原理的话,有另外一位大牛已经写了一个系列的Spark的源码分析了,大家可以去参考他的,他的过程图画得非常好,他写过的我可能就不写了,实在没办法比人家写得更好。下面给出他的地址:
http:...
分类:
其他好文 时间:
2014-06-09 13:25:12
阅读次数:
439