任何Spark程序员都是从SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf对象中包含了Spark集群配置的各种参数。 SparkConf conf = new SparkConf().setMaster("local").setApp ...
分类:
其他好文 时间:
2020-01-08 22:34:05
阅读次数:
79
配置免密度登录 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 id_rsa, id_rsa.pub,默认存储在~/.ssh 目录下 现在给slave1节点设置公钥 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 i ...
分类:
其他好文 时间:
2019-12-31 19:01:20
阅读次数:
105
python2,python3两个kernel共存 引入:事情的起因是公司需要用pyspark,而将pyspark封装到jupyter中。而公司spark集群上都是py2的解释器。因此jupyter上运行时需要使用py2的kernel 环境:使用conda3自带的jupyter,已装py3解释器,非 ...
分类:
其他好文 时间:
2019-12-29 12:57:28
阅读次数:
73
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd ...
分类:
其他好文 时间:
2019-12-12 17:57:37
阅读次数:
190
本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。Spark on Yarn模式Spark客户端直接连接Yarn。不需要额外构建Spark集群。Spark on Mesos模式Spark客户端直接连接 ...
分类:
其他好文 时间:
2019-12-09 21:11:23
阅读次数:
237
cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre ...
分类:
编程语言 时间:
2019-11-07 17:41:34
阅读次数:
113
Hadoop+Spark集群部署指南 (多节点文件分发、集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slav ...
分类:
Web程序 时间:
2019-10-17 13:53:28
阅读次数:
132
说明:本机是在win10系统下,安装用的是VMware15,centOS7,JDK1.8,spark-2.4.0,hadoop-2.7.7,apache-hive-2.3.4,scala-2.12.8。在VMware里创建了node01,node02,node03,node04四个节点(或者叫四个虚拟机)。注意在使用vm14版本的时候出现黑屏,情况如下:在vm上安装好4个节点后,用管理员身份打开V
分类:
其他好文 时间:
2019-10-13 10:24:41
阅读次数:
97
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。 目录: Spark集群安装 参数配置 测试验证 Spark集群安装: 在ambari ...
分类:
其他好文 时间:
2019-10-02 01:00:23
阅读次数:
123
视频目录: Spark入门| 01 Spark概念架构 Spark入门| 02 Spark集群搭建 Spark入门| 03 Spark Shell算子操作 Spark入门| 04 Spark单词计数Shell操作 Spark入门| 05 IDEA中编写Spark单词计数程序 Spark入门| 06 ...
分类:
其他好文 时间:
2019-09-29 22:07:48
阅读次数:
127