本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。1. 下载spark binary 0.9.12. 安装scala3. 安装sbt4. 安装java启动spark-shell单机模式运行,即local...
分类:
Web程序 时间:
2015-05-28 17:39:19
阅读次数:
231
1、复制文件至HDFS:
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoop
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL...
分类:
系统相关 时间:
2015-05-02 15:16:53
阅读次数:
187
没有SCALA的东东,玩不起哈。./spark-shell从文件生成一个DRIVER?val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.apache.spark.deploy.master.Mas...
分类:
其他好文 时间:
2015-04-28 09:29:07
阅读次数:
251
由于spark-1.3作为一个里程碑式的发布, 加入众多的功能特性,所以,有必要好好的研究一把,spark-1.3需要scala-2.10.x的版本支持,而系统上默认的scala的版本为2.9,需要进行升级, 可以参考ubuntu 安装 2.10.x版本的scala. 配置好scala的环境后,下载...
分类:
系统相关 时间:
2015-04-13 18:07:27
阅读次数:
219
Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)
可实现你所需要的:
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。
甚至可以添加自己的语言支持。如何写一个...
分类:
Web程序 时间:
2015-04-01 13:23:03
阅读次数:
329
Windows下最简的开发环境搭建这里的spark开发环境, 不是为apache spark开源项目贡献代码, 而是指基于spark的大数据项目开发.Spark提供了2个交互式shell, 一个是pyspark(基于python), 一个是spark_shell(基于scala). 这两个环境其实是...
分类:
Windows程序 时间:
2015-03-29 16:20:39
阅读次数:
2373
1、下载scala2.11.5版本,下载地址为:
2、安装和配置scala:...
分类:
其他好文 时间:
2015-02-09 12:54:09
阅读次数:
160
这次 我们以指定executor-memory参数的方式来启动spark-shell: 启动成功了 在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令...
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的风格: 执行结果: 从...