声明:代码来自《Hadoop应用技术开发详解》4.7.2,版权归作者所有。1. 概述 文件在Hadoop中表示为一个Path对象,可以把路径看做是Hadoop文件系统的URI,例如:hdfs://master:9000/user/hadoop/study/mr/WordCount/input/fi....
分类:
其他好文 时间:
2015-02-02 17:51:33
阅读次数:
273
本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std...
分类:
编程语言 时间:
2015-01-29 20:57:30
阅读次数:
267
安装好Spark 后,官方自带了一些demo, 路径在 ?Spark根目录/examples/src/main/python/ 里面有些例子,例如统计字数的 wordcount.py import?sys
from?operator?import?add
from?pyspark?import?SparkCo...
分类:
其他好文 时间:
2015-01-29 17:53:34
阅读次数:
224
从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的,如何对spark的输出结果进行排序呢? 先对reduceByKey的结果进行key,value位置置换(数字,字符),然后再进行数字排序,再将key,value位置置换...
分类:
编程语言 时间:
2015-01-29 14:48:39
阅读次数:
142
hadoop-2.6.0运行WordCount
1、启动Hadoop:
2、创建file
文件夹:
这个是建在本地硬盘上的:
进入该目录:
创建两个 txt 文件:
结果如下:
3、在HDFS上创建输入文件夹目录 input :
把本地硬盘上创建的文件传进input 里面:
查看结果:
4、Hadoop自带的运...
分类:
其他好文 时间:
2015-01-22 18:12:14
阅读次数:
195
第一个Hadoop下的Wordcount程序这次的源码是用的Hadoop实战的源码首先将源码拷贝进Linux下的工作目录下,在/home/hadoop/workspace下。导入两个测试文件echo "Hello World Bye World" file01echo "Hello Hadoop B...
分类:
其他好文 时间:
2015-01-22 17:28:16
阅读次数:
164
Hadoop例子——运行example中的wordCount例子一、 需求说明单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为 MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能...
分类:
其他好文 时间:
2015-01-21 22:10:27
阅读次数:
226
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一、 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclipse上安装hadoop的开发插件。最新释放出的hadoop包含源码的包,以 hadoop-1.X为例,包含相...
分类:
系统相关 时间:
2015-01-21 22:02:39
阅读次数:
302
从hadoop 1.2.1升级到 Hadoop2.6.0,调试写代码,还是遇到一些问题的。这里记录一下,后续如果自己再遇到类似问题,那也好找原因了。在eclipse里编译运行 WordCount,出现以下错误。Exception in thread "main" java.lang.NoClassD...
分类:
移动开发 时间:
2015-01-19 00:14:12
阅读次数:
564
今天写了一个SparkStreaming的测试代码,简单的测试流式读取HDFS中的文件,然后统计WordCount。代码如下:packagecom.company.scala.lk
importorg.apache.spark.streaming._
/**
*Createdbykaion15/1/14.
*/
objectSparkStreamingTest{
defloadFile():Unit={
valssc=newStrea..
分类:
其他好文 时间:
2015-01-14 18:21:00
阅读次数:
256