一、前期准备工作: 1.安装包的准备: VMware(10.0版本以上) : 官方网站:https://www.vmware.com/cn.html 官方下载地址:http://www.vmware.com/products/player/playerpro-evaluation.html 10.0 ...
分类:
其他好文 时间:
2017-04-24 21:06:08
阅读次数:
510
安装spark包 修改spark-env.sh文件 修改slaves文件 spark1 spark2 spark3 安装spark集群 在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。 启动spark集群 ...
分类:
其他好文 时间:
2017-04-17 10:05:24
阅读次数:
221
1. Spark 2.0 ! 还记得我们的第七篇 Spark 博文里吗?里面我用三点来总结 spark dataframe 的好处: 当时是主要介绍 spark 里的 dataframe,今天是想总结一下 spark 2.0 的一些重大更新,准备过段时间[等到 2.0.1 或者 2.1 出来了就]切 ...
分类:
其他好文 时间:
2017-04-10 18:20:46
阅读次数:
297
(转载)SPARKR,对RDD操作的介绍 原以为,用sparkR不能做map操作, 搜了搜发现可以。 lapply等同于map, 但是不能操作spark RDD. spark2.0以后, sparkR增加了 dapply, dapplycollect 可以操作spark RDD. 原文地址: htt ...
分类:
其他好文 时间:
2017-04-05 14:51:00
阅读次数:
455
本案例搭建的环境介绍如下:Ambari2.4.2+HDP2.5(hadoop2.7;hive1.2;Tez;Spark2.0)+jdk1.8.25+centos7.0,这里首先要关注些注意事项,至于为什么会一一说明。第一部分:注意事项:版本必须低于7.2selinux必须关闭firewalld必须关闭127.0.0.1hosts该条记录删除本地仓库必须搭..
分类:
其他好文 时间:
2017-04-04 17:53:04
阅读次数:
222
一、依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs.com/liugh/p/6624872.html 1.3 Scala 参见博文:http://ww ...
分类:
其他好文 时间:
2017-03-27 11:40:41
阅读次数:
227
机器部署 准备三台Linux服务器,安装好JDK1.7 下载Spark安装包 上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上 解压安装包到指定位置tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /h ...
分类:
其他好文 时间:
2017-03-17 23:34:42
阅读次数:
357
运行start-master.sh后,日志报错如下: 解决办法: 在spark-env.sh中配置: 再次运行启动脚本即可。 ...
分类:
其他好文 时间:
2017-03-04 22:35:27
阅读次数:
2515
sparkR在spark2.0里面,RDD后端代码位于org.apache.spark.rdd中,R语言相关的位于org.apache.spark.api.r中。 从入口开始,./bin/sparkR里面只有四句话,调用的是这个 spark-submit里面是个一句话的shell脚本 好了,入口是o ...
分类:
其他好文 时间:
2017-03-02 16:30:12
阅读次数:
209
1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。 ...
分类:
其他好文 时间:
2017-02-28 15:27:36
阅读次数:
403