原文地址:http://mzorro.me/post/55c85d06e40daa9d022f3cbdWordCount可以说是分布式数据处理框架的”Hello World”,我们可以以它为例来剖析一个Spark Job的执行全过程。我们要执行的代码为:sc.textFile("hdfs://......
分类:
其他好文 时间:
2015-08-10 21:50:06
阅读次数:
1664
转载自:http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装sca...
分类:
Web程序 时间:
2015-08-08 18:06:52
阅读次数:
123
新建Maven项目 org.apache.storm storm-core 0.9.2-incubating JavaCode 1 package mystorm; 2 3 import java.io.File; 4 import java.io.IOException; 5...
分类:
其他好文 时间:
2015-07-31 21:50:23
阅读次数:
141
大家都知道hadoop中自带了很多例子,那么怎么用呢,今天主要测试下hadoop中的wordcount程序jar包:
1、首先启动hadoop
2、准备数据:vim words, 写入
hello tom
hello jerry
hello kitty
hello tom
hello bbb
3、将数据上传到HDFS...
分类:
其他好文 时间:
2015-07-29 17:21:21
阅读次数:
155
对于如何编译WordCount.java,对于0.20 等旧版本版本的做法很常见,具体如下:javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java但较新的 2.X 版本中,已经没有 ha...
分类:
其他好文 时间:
2015-07-28 22:32:41
阅读次数:
132
1.引入spark包:spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目录下File-->project structure2.用IDEA建立一个scala项目,新建一个WordCount的object3.WordCount代码如下:import org.apa...
分类:
其他好文 时间:
2015-07-26 22:14:16
阅读次数:
175
由wordcount执行一步一步记录mapreduce的开发过程1、执行wordcount2、最简单的mapreduce3、自定义
分类:
其他好文 时间:
2015-07-19 23:46:16
阅读次数:
164
前四篇文章讲了Hadoop的配置和测试以及eclipse下的使用,有兴趣的可以先看下。1.Hadoop流简介用可执行文件作为Mapper和Reducer,接受的都是标准输入,输出的都是标准输出。当一个可执行文件作为Mapper时,每一个Map任务会以一个独立的进程启动这个可执行文件,然后在Map任务...
看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧。上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点。
分类:
其他好文 时间:
2015-07-15 11:03:53
阅读次数:
154
环境:Windows8.1,Eclipse用Hadoop自带的wordcount示例hadoop2.7.0hadoop-eclipse-plugin-2.7.0.jar //Eclipse的插件,需要对应Hadoop当前版本基本步骤有很多博客已经提及,就不再赘述1. 将hadoop-eclipse-...
分类:
系统相关 时间:
2015-07-08 18:30:02
阅读次数:
328