首先实现rdd缓存 准备了500M的数据 10份,每份 100万条,存在hdfs 中通过sc.textFile方法读取 val rdd1 = sc.textFile("hdfs://mini1:9000/spark/input/visitlog").cache 在启动spark集群模式时分配内存2g ...
分类:
其他好文 时间:
2017-08-08 12:19:38
阅读次数:
151
(一)HA下配置spark 1,spark版本型号:spark-2.1.0-bin-hadoop2.7 2,解压,修改配置环境变量 3,修改spark-env.sh文件 4,修改slaves文件 5,分发及启动 各个节点jps情况: [root@ha1 spark-2.1.0]# jps 2464 ...
分类:
其他好文 时间:
2017-08-06 20:45:14
阅读次数:
209
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤。 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /spark.txt,即可。 第一:看整个代码视图 打开WordCountCluster.java源文件 ...
分类:
编程语言 时间:
2017-08-05 13:19:33
阅读次数:
223
具体问题: 针对问题2的一个解决办法是将Python依赖库打包成*.egg文件,在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code,编译时对平台依赖,并且对于一些复杂依赖的库(如Pandas) ...
分类:
编程语言 时间:
2017-07-27 00:53:05
阅读次数:
184
本来想用Eclipse的。然而在网上找了一圈,发现大家都在说IntelliJ怎样怎样好。我也受到了鼓励,遂决定在这台破机器上鼓捣一次IntelliJ吧。 Spark程序远程调试,就是将本地IDE连接到Spark集群中。让程序一边执行,一边通过debuger实时查看执行情况,配置好以后和本地debug ...
分类:
其他好文 时间:
2017-07-16 11:19:34
阅读次数:
260
主流趋势 1. openstack defcore 互操作性认证。打通不同的openstack 厂商之间的连接 2. 首批OpenStack管理员认证(COA)将于2016年进行 3. 混合云应用广泛 Cloud Broker,cascading openstack 云连接器 4. DevOps 5 ...
分类:
其他好文 时间:
2017-07-15 15:49:52
阅读次数:
132
本文主要阐述大数据平台环境zookeeper常见异常和解决方案 1.Connection reset by peer异常 异常说明 我们现在项目有个任务OneMinuteDataSync是用spark将实时数据同步插入到hbase中,程序已经稳定运行很长一段时间,不过最近数据量增加比较多,任务运行一 ...
分类:
其他好文 时间:
2017-07-12 15:27:47
阅读次数:
389
1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式,易于构建集群。 Apache Mesos—通用的集群管理,可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Hadoop2中的资源管理器。 Tip1: ...
分类:
其他好文 时间:
2017-07-03 22:35:58
阅读次数:
305
配置安装Hadoop2.2.0 部署spark 1.0的流程 一、环境描写叙述 本实验在一台Windows7-64下安装Vmware。在Vmware里安装两虚拟机分别例如以下 主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,usernameRoot 从机名spa ...
分类:
其他好文 时间:
2017-06-21 14:03:15
阅读次数:
164
因为看到我参考的Hadoop/spark集群搭建的文档中的都没有对 /spark-default.conf 的配置 合理地对 /spark-default.conf 进行配置,能够提高执行效率 先cp复制模板文件 然后添加配置信息 ...
分类:
其他好文 时间:
2017-06-09 00:52:48
阅读次数:
610