Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式。...
分类:
其他好文 时间:
2015-08-19 09:29:03
阅读次数:
241
在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的 在Spark的conf目录下,把log4j.properties.template修改为log4j.properties,原来的...
分类:
其他好文 时间:
2015-07-17 18:55:50
阅读次数:
159
1、编程时无法加载hive包,需要在编译好的spark(用spark-shell启动,用spark-sql能够直接访问hive表)的lib目录下,考出assembly包,为其创建一个maven的repository,然后添加到dependency里面。最笨的创建repository的办法就是直接创建...
分类:
数据库 时间:
2015-07-14 17:02:48
阅读次数:
259
公司最近的spark集群由原来的standalone迁移到spark on yarn了,在迁移相关的程序时,发现调整还是有一些的,以下分别是两个版本提交的部分shell命令,从命令可以看出其区别,这个区别主要是spark on yarn的工作方式不太一样,造成提交的方式也不太一样。
standalone方式的脚本为:
spark-submit --class com.bg.tools...
分类:
其他好文 时间:
2015-06-17 21:36:42
阅读次数:
393
背景
主体逻辑
具体实现
AM
YarnAllocator
Executor背景Spark on Yarn分yarn-cluster和yarn-client两种模式。
本文通过Cluster模式的TaskScheduler实现入手,梳理一遍spark on yarn的大致实现逻辑。
前提我对两种模式以及yarn任务的整体运行逻辑不是很清楚。
主体逻辑cluster模式中,使用的TaskSche...
分类:
其他好文 时间:
2015-02-15 18:06:53
阅读次数:
215
1. sparkContext中设置createTaskScheduler 1 case "yarn-standalone" | "yarn-cluster" => 2 if (master == "yarn-standalone") { 3 logW...
分类:
其他好文 时间:
2014-12-11 23:56:29
阅读次数:
255
Spark版本:spark-1.1.0-bin-hadoop2.4 (下载:http://spark.apache.org/downloads.html)服务器环境的情况,请参考上篇博文hbase centOS生产环境配置笔记(hbase-r是ResourceManager; hbase-1, hb...
分类:
其他好文 时间:
2014-11-03 16:19:44
阅读次数:
288
1 概述
Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。
在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。
2 防火墙
部署好Spark...
分类:
其他好文 时间:
2014-08-04 14:23:27
阅读次数:
297