我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功。在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,WourdCount自带WourdCount程序指令,就可以输出写入的那句话各个不同单词的个数。但是这不是 ...
分类:
其他好文 时间:
2016-09-27 17:47:13
阅读次数:
173
学习mapreduce过程中, map第一个阶段是从hdfs 中获取文件的并进行切片,我自己在好奇map的启动的数量和文件的大小有什么关系,进过学习得知map的数量和文件切片的数量有关系,那文件的大小和切片的数量的有什么关系 ,下面我就进入Hadoop的源代码进行研究一下 文件的大小和切片的数量有什 ...
分类:
其他好文 时间:
2016-08-20 17:55:37
阅读次数:
115
文件合并和去重: 可以把每一行文本作为key,value为随意值。 数字排序: MapReduce过程中就有排序,它是按照key值进行排序的,如果key为封装int的IntWritable类型,那么MapReduce按照数字大小对key排序,如果key为封装为String的Text类型,那么MapR ...
分类:
其他好文 时间:
2016-08-12 16:33:08
阅读次数:
104
原文地址:http://blog.jobbole.com/81676/ 2、WordCount处理过程 上面给出了WordCount的设计思路和源码,但是没有深入细节,下面对WordCount进行更加详细的分析: (1)将文件拆分成splits,由于测试用的文件较小,所以每一个文件为一个split, ...
分类:
其他好文 时间:
2016-08-05 17:32:15
阅读次数:
151
字数统计:MapReduce过程:写一个继承mapper的类,声明输入(基本固定)输出(看需求)类型重写map(K,V,context),map方法会被调用多次,每次调用map方法读取split传过来的一行数据,需要将这一行数据切割(StringTokeizer类,默认看空格切割)While遍历,通过context输出要..
分类:
其他好文 时间:
2016-06-04 18:03:48
阅读次数:
211
1、Hadoop包含一个完整的生态圈 Hive 数据仓库 HDFS 分布式文件系统 MapReduce 并行调度框架 2、MapReduce过程 Mapper和Reduce的入参和出参都是key/value 三、HDFS 1、HDFS性质 2、HDFS数据块 1、磁盘的块一般是512字节,HDFS一 ...
分类:
其他好文 时间:
2016-05-24 01:40:20
阅读次数:
189
1. 设计思路 在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类型,然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,val ...
分类:
编程语言 时间:
2016-04-11 11:39:46
阅读次数:
189
前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。 让我们把Hive的环境构建起来,帮助非开 ...
分类:
其他好文 时间:
2016-04-09 21:49:29
阅读次数:
220
一、基本执行过程 MapReduce过程分为两个阶段:map函数阶段和reduce函数阶段 (1)map函数是用来筛选掉非需要的数据,以键值对的形式输出,键为文件位置偏移量,值为待分析的数据,map函数核心目的是形成对数据的索引,以供reduce函数方便对数据进行分析。 (2)reduce函数以Ma
分类:
其他好文 时间:
2016-03-14 21:30:25
阅读次数:
228
Hadoop越来越火,围绕Hadoop的子项目更是增长迅速,光Apache官网上列出来的就十几个,但是万变不离其宗,大部分项目都是基于Hadoop Common。 MapReduce更是核心中的核心。那么到底什么是MapReduce,它具体是怎么工作的呢? 关于它的原理,说简单也简单,随便画个图喷一
分类:
其他好文 时间:
2016-01-31 21:20:30
阅读次数:
441