有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
上一节分析了Job由JobClient提交到JobTracker的流程,利用RPC机制,JobTracker接收到Job ID和Job所在HDFS的目录,够早了JobInProgress对象,丢入队列,另一个线程从队列中取出JobInProgress对象,并丢入线程池中执行,执行JobInProgr...
分类:
其他好文 时间:
2014-08-17 03:45:51
阅读次数:
383
上一节以WordCount分析了MapReduce的基本执行流程,但并没有从框架上进行分析,这一部分工作在后续慢慢补充。这一节,先剖析一下任务提交过程。MapReduce集群包含一个JobTracker和多个TaskTracker,这里先不考虑YARN,仍然依据1版本进行分析。一个MapReduce...
分类:
其他好文 时间:
2014-08-17 02:20:01
阅读次数:
320
hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是..
分类:
其他好文 时间:
2014-08-17 01:11:02
阅读次数:
241
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的):package org.apache.hadoop.examples;import java.io.IOException;import java.ut...
分类:
其他好文 时间:
2014-08-16 23:48:21
阅读次数:
340
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:
其他好文 时间:
2014-08-16 18:29:30
阅读次数:
339
MaxTemperature.java package cn.kissoft.hadoop.week05;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduc...
分类:
其他好文 时间:
2014-08-15 14:54:39
阅读次数:
307