前言 最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置 本篇博客主要说明,如果搭建spark集群并集成到hadoop 安装流程 安装spark需要先安装scala 注意在安装过程中需要对应spark与 ...
分类:
其他好文 时间:
2019-07-24 19:14:56
阅读次数:
88
ISBN 9787115488169 "之前" 我们已经完成了Hadoop+Spark集群的搭建,下面改用这本书。 "教材" , "讲义" , "实验" sbt Spark应用程序开发可以采用Scala+sbt,Java+Maven,或Python直接spark submit三种方式。 这里介绍通过 ...
分类:
其他好文 时间:
2019-06-20 11:07:51
阅读次数:
105
之前对 SQL 还是不是非常熟悉的,但是现在或多或少还是会写一些计算任务。比如最近在推送将所有天级的耗时任务都从传统关系型数据库迁移至 Spark 集群当中进行计算,中间遇到一些有趣的小问题在这里记录一下。 Q: 我想按照某个字段分组并且把一组查询字段连起来得到一个 json 然后把结果作为一个字段 ...
分类:
其他好文 时间:
2019-05-24 12:56:16
阅读次数:
118
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 组建方案:master:PCS101,slave:PCS102、PCS103 搭建方式一: ...
分类:
其他好文 时间:
2019-04-02 18:30:19
阅读次数:
156
https://cloud.tencent.com/developer/article/1098820 前面贴子是直接在主机ip设置。我不想搞多个虚拟机,如果那样还要docker干嘛呢。 首先需要设置docker容器IP 首先验证一下 先从私库中拉下镜像 ...
分类:
其他好文 时间:
2019-02-16 20:39:08
阅读次数:
235
【From】 https://www.cnblogs.com/weiweifeng/p/8073553.html#undefined spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1. 例子 一个最简单的例子,部署 spark ...
分类:
其他好文 时间:
2019-02-11 19:50:48
阅读次数:
197
<! TOC "spark" "安装" "配置" "使用java来操作spark" <! /TOC spark 安装 配置 1. spark env.sh 2. slaves 3. 启动 使用java来操作spark 写个小demo,用来分析10万个数据中男女人数 1. 模拟数据的java代码 3. ...
分类:
编程语言 时间:
2019-01-17 00:34:28
阅读次数:
284
分布式集群搭建:http://blog.51cto.com/14048416/2327802?上面试spark普通的分布式集群搭建,存在master节点的单点故障问题。Hadoop2.x开始,已经使用zookeeper解决了单点故障。同样的策略,spark也利用了zookeeper解决了spark集群的单点故障问题。1.集群的规划(这里使用3台机器测试)2.具体搭建步骤:①如果已经使用,
分类:
其他好文 时间:
2019-01-02 12:28:31
阅读次数:
232
最近在做将spark的代码提交到远程当中遇到很多坑,各种各样的错误: 我是在window当中使用idea开发将本地的代码提交到远程的spark集群上,没有用到local的模式去做(在实际的生产当中不会用到local的方式去做,所以没考虑) 我是直接run的方式在idea当中提交代码的,这里采用的st ...
分类:
其他好文 时间:
2018-12-26 15:39:49
阅读次数:
910