码迷,mamicode.com
首页 > 其他好文 > 详细

spark 笔记(一) stand alone 和yarn-cluster的部分区别

时间:2015-06-17 21:36:42      阅读:393      评论:0      收藏:0      [点我收藏+]

标签:

    公司最近的spark集群由原来的standalone迁移到spark on yarn了,在迁移相关的程序时,发现调整还是有一些的,以下分别是两个版本提交的部分shell命令,从命令可以看出其区别,这个区别主要是spark on yarn的工作方式不太一样,造成提交的方式也不太一样。

    standalone方式的脚本为:


    yarn-cluster方式的脚本为:

    碰到的问题其中一个就是文件读写的方法不一致, standalone由于driver是固定的, 读取文件类似本地读取,但是yarn-cluster的driver是yarn进行分配的,需要把文件使用--files进行上传,而且在读取文件的时候,应该只能使用文件的名称而不是包含全部路径的文件名,不然会抛出文件找不到的异常,另外比较有用的是这个选项:--conf "spark.hadoop.mapreduce.input.fileinputformat.split.minsize=1073741824" 一般hadoop默认的块是64M,这个可以调整split的大小,以免切分成太多小文件。

spark 笔记(一) stand alone 和yarn-cluster的部分区别

标签:

原文地址:http://blog.csdn.net/hotallen/article/details/46537247

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!