【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
分类:
其他好文 时间:
2014-08-04 17:08:57
阅读次数:
211
1 概述
Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。
在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。
2 防火墙
部署好Spark...
分类:
其他好文 时间:
2014-08-04 14:23:27
阅读次数:
297
在Eclipse里利用Sbt构建开发Scala程序的一般步骤,并用实例讲解了整个流程。...
分类:
系统相关 时间:
2014-08-04 02:03:06
阅读次数:
476
1、创建项目sp
create new project->scala->NOT SBT->next->设置项目名称'sp'
2、导入相关jar包
File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK
按照类似的方法导入scala-compiler.jar,...
分类:
其他好文 时间:
2014-08-03 20:39:35
阅读次数:
262
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。
本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说越仔细越好。
分类:
其他好文 时间:
2014-08-02 23:13:04
阅读次数:
267
最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义。
本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间的消息传递,存储模型,...
分类:
其他好文 时间:
2014-08-02 18:25:23
阅读次数:
489
大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析,再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler;2、DAGScheduler将job分解成Stage DAG,将每个Sta...
分类:
其他好文 时间:
2014-08-02 04:07:42
阅读次数:
1266
近年来的大数据应用特别热,特别是Hadoop和Spark。但大家使用这些分布式文件系统和计算框架都需要一个分布式的集群环境,而大家手头一般没有多余的机器部署master和多个slave节点,就只能在VMware上多安装几个虚拟机来模拟集群的搭建,但是安装好一台虚拟机后,我想大部分的人都不想再耗时再重...
分类:
其他好文 时间:
2014-08-02 01:49:52
阅读次数:
267