1.为什么要让运行时Jar可以从yarn端访问spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在 每一次我们运行的时候,如果没有指定 spark.yarn.archive or spark.yarn.jars Spark将在 ...
分类:
其他好文 时间:
2018-11-30 00:40:47
阅读次数:
311
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。1.概述在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用ClouderaManager通过Parcel包方式安装Kudu、Spark2和Kafka的过程。内容概括Kudu安装S
分类:
其他好文 时间:
2018-11-20 19:29:45
阅读次数:
271
背景: 机器系统:redhat7.3;已经配置了http服务 集群在安装的时候没有启动spark服务,因为cdh5.15自带的spark不是2.0,所以直接进行spark2.3的安装 参考文档:https://www.cloudera.com/documentation/spark2/latest/ ...
分类:
其他好文 时间:
2018-11-20 17:08:11
阅读次数:
399
本博客内容基于Spark2.2版本,在阅读文章并想实际操作前,请确保你有: 老版本 老版本任务提交是基于启动本地进程,执行脚本spark-submit xxx ** 的方式做的。其中一个关键的问题就是获得提交Spark任务的Application-id,因为这个id是跟任务状态的跟踪有关系的。如果你 ...
分类:
编程语言 时间:
2018-11-14 17:18:50
阅读次数:
1208
1.环境准备 安装Hadoop 2.7.2 安装scala 2.11.8 安装jdk 1.8.0_171 准备安装包:spark 2.2.2 bin hadoop2.7.tgz,并解压至hadoop用户目录. 2.修改配置文件 .bash_profile spark env.sh(从spark en ...
分类:
其他好文 时间:
2018-11-06 19:36:59
阅读次数:
158
要想通过ES API对es的操作,必须获取到TransportClient对象,让后根据TransportClient获取到IndicesAdminClient对象后,方可以根据IndicesAdminClient对象提供的方法对ES的index进行操作:create index,update in ...
分类:
移动开发 时间:
2018-11-03 12:43:09
阅读次数:
822
Apache spark2.1.0 编译 hadoop-2.6-cdh5.11.2 的对应版本 搞了两天,终于把spark编译成功了,把编译过程记录一下 编译失败的坑: 1)linux内存不足,maven编译过程中内存溢出 2)找不到cloudera仓库 3)报各种错误 考虑到maven下载可能会被 ...
分类:
Web程序 时间:
2018-10-23 14:25:08
阅读次数:
432
spark job spark job提交 三级调度框架, DagSch,计算stage,提交阶段,将stage映射成taskset,提交taskset给tasksch。 TaskSch BackendSch setMaster("local[n]") n表示使用n个线程模拟的spark集群下的wo ...
分类:
其他好文 时间:
2018-10-12 23:39:15
阅读次数:
177
spark-shell/spark-submit/pyspark等关系如下: ...
分类:
其他好文 时间:
2018-09-29 13:00:58
阅读次数:
162
1 使用单机local模式提交任务 local模式也就是本地模式,也就是在本地机器上单机执行程序。使用这个模式的话,并不需要启动Hadoop集群,也不需要启动Spark集群,只要有一台机器上安装了JDK、Scala、Spark即可运行。 进入到Spark2.1.1的安装目录,命令是: 执行命令,用单 ...
分类:
其他好文 时间:
2018-09-28 15:24:33
阅读次数:
183