1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar ...
分类:
其他好文 时间:
2020-04-17 00:05:12
阅读次数:
66
创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journal ...
分类:
Web程序 时间:
2020-04-05 00:40:06
阅读次数:
101
hadoop+spark集群搭建 本次实验环境:两台hadoop+两台spark组成集群 环境准备: 1. 两个主机实现ssh无密钥认证,包括本机与本机的免密钥认证: ssh-keygren :生成一对密钥 ssh-copy-id : 把公钥发给对方服务器 2. 集群间需实现时间同步:... ...
分类:
其他好文 时间:
2020-02-23 18:34:33
阅读次数:
90
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:
其他好文 时间:
2020-02-22 14:09:44
阅读次数:
86
https://blog.csdn.net/boling_cavalry/article/details/86747258 https://www.cnblogs.com/xuliangxing/p/7234014.html 第二个链接较为详细,但版本较旧 注意spark 7077端口URL,如果h ...
分类:
其他好文 时间:
2020-02-22 09:20:09
阅读次数:
75
spark核心概念 我们之前介绍了spark的核心RDD,它是spark操作的基本单元。但是对于spark集群来说你还需要它的其它概念,比如我们操作RDD的时候,资源由谁来管理、任务由谁来执行等等。 + + + + + + + + + 东西有点多,我们可以梳理一下。假设我们有一个应用程序:appli ...
分类:
其他好文 时间:
2020-02-18 23:23:35
阅读次数:
169
SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa ...
分类:
其他好文 时间:
2020-02-01 21:42:00
阅读次数:
73
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以今天记录下如何在Windows下进行spark编程。 首先 ...
分类:
其他好文 时间:
2020-01-27 23:46:50
阅读次数:
81
Spark集群环境配置 我们有2个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为4。 conf/spark defaults.conf ...
分类:
Web程序 时间:
2020-01-14 23:29:31
阅读次数:
300
[TOC] 1 目的 记录Spark集群框架搭建及实验自学心得。 2 准备工作 1. "VMware 15 Pro" 2. "Centos7" 3. "JDK 1.8" 4. "Hadoop 2.7.2" 5. "SecureCRT version 8.5" 6. "Scala 2.12.7" 7. ...
分类:
其他好文 时间:
2020-01-13 20:16:53
阅读次数:
106