这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函 ...
分类:
其他好文 时间:
2017-05-16 12:55:05
阅读次数:
197
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践。 Spark 安装部署 理论已经了解的差不多了,接下来是实际动手实验: 练习1 利用Spark Shell(本机模式) 完成WordCount spark-shell ...
分类:
系统相关 时间:
2017-05-13 18:59:17
阅读次数:
438
问题:用SecureCRT远程连接至Spark集群,启动spark-shell却发现输错命令后却无法用退格键删除。 解决方法: 第一步: 在SecureCRT的菜单栏选择“OPtions(选项)”按钮,在弹出的选项中选择“Session Options(会话选项)” 第二步: 在弹出的对话框中选择左 ...
分类:
系统相关 时间:
2017-05-09 00:45:25
阅读次数:
422
2.4 小试牛刀:Spark shell和SparkContext 本章使用的资料来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的。由于网络原因,无法 ...
分类:
其他好文 时间:
2017-05-08 00:22:25
阅读次数:
298
同时打开了两个SecureCRT的终端界面,其中一个已经进入了Spark-shell,在另一个SecureCRT界面中执行 "spark-shell --master yarn --deploy-mode client < cha02.scala" 时报错,如下: [root@master test ...
分类:
编程语言 时间:
2017-05-07 22:01:16
阅读次数:
808
由于需要首次手动安装sbt,需要联网,故将虚拟机的网络适配器模式设置为"桥接模式",这样就可以和互联网相连接。 但是后面执行"spark-shell --master yarn --deploy-mode client" 命令时,无法启动,一直停留在中间状态不动, 如下: [root@master ...
分类:
系统相关 时间:
2017-05-07 20:07:24
阅读次数:
1179
在Hadoop 2.7.2集群下执行如下命令: spark-shell --master yarn --deploy-mode client 爆出下面的错误: org.apache.spark.SparkException: Yarn application has already ended! I ...
分类:
系统相关 时间:
2017-05-06 18:57:43
阅读次数:
1296
utils.sh脚本内容: 1 #!/usr/bin/env bash 2 3 # 4 # Licensed to the Apache Software Foundation (ASF) under one or more 5 # contributor license agreements. S ...
分类:
系统相关 时间:
2017-05-04 12:06:00
阅读次数:
226
在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器...
分类:
系统相关 时间:
2017-04-30 19:57:56
阅读次数:
284
1.使用的是Spark-shell和Scala语言,同样需要把文件放在Hadoop文件系统中 启动Spark-shell ...
分类:
其他好文 时间:
2017-04-29 23:23:39
阅读次数:
141