分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
今天往虚拟机上安装了Scala和spark,下面说一下安装的一些过程和遇到的一些问题。 首先,根据网上的Hadoop3.2+Scala2.12.1+Spark2.3.3环境搭建教程:https://www.jianshu.com/p/82ad3e15545a 了解基本安装流程,由于之前已经安装好了v ...
分类:
其他好文 时间:
2020-02-01 19:29:59
阅读次数:
59
下载Spark安装包 从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/ap ...
分类:
其他好文 时间:
2020-01-26 18:59:28
阅读次数:
71
环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...
分类:
其他好文 时间:
2020-01-21 10:33:56
阅读次数:
120
1.使用WaterDrop 从kafka中消费数据,写入到ClickHouse 1.1 环境 ~~~ SPARK2 2.3.0.cloudera4 1.cdh5.13.3.p0.611179 clickhouse 1.1.54236 4.el7.x86_64 waterdrop 1.4.2 ~~~ ...
分类:
其他好文 时间:
2019-12-30 19:36:58
阅读次数:
284
准备 1、hadoop已部署(若没有可以参考:Centos7安装Hadoop2.7),集群情况如下(IP地址与之前文章有变动): 2、官网下载安装包:spark-2.4.4-bin-hadoop2.7.tgz(推荐去清华大学或中科大的开源镜像站)。 3、spark将部署在三台都已存在的路径/myda ...
分类:
其他好文 时间:
2019-12-20 15:28:51
阅读次数:
130
一 编译 以spark2.4 hadoop2.8.4为例 1,spark 项目根pom文件修改 pom文件新增 <profile> <id>hadoop-2.8</id> <properties> <hadoop.version>2.8.4</hadoop.version> </properties ...
分类:
其他好文 时间:
2019-12-12 13:22:10
阅读次数:
86
spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.x 到 现在最新的spark 3.x ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Application 调 ...
分类:
移动开发 时间:
2019-12-04 13:22:15
阅读次数:
118
背景:我自己的电脑配置太低,想在centos操作系统上安装CDH5.1.2并配置集群,我去阿里云上买了3台按流量计费的阿里云服务器。 大家一定要注意,配置,购买的阿里云服务器不要太低了。建议:3台2核8G内存的阿里云服务器。测试完毕后,请及时释放掉这三台服务器,否则阿里云会继续计费,很快消耗掉账户里 ...
分类:
其他好文 时间:
2019-11-23 23:47:10
阅读次数:
136
主要内容 spark部署 前提 zookeeper正常使用 JAVA_HOME环境变量 HADOOP_HOME环境变量 安装包 "微云下载 | tar包目录下" Spark2.4.4 一、环境准备 上传到docker镜像 解压 二、配置文件 spark env.sh slaves spark def ...
分类:
其他好文 时间:
2019-09-30 12:23:53
阅读次数:
88