Hadoop是适合大数据的分布式存储与计算平台 HDFS的架构:主从式结构 主节点只有一个NameNode,从节点可以有很多个DataNode。 NameNode负责: (1)接收用户操作请求 (2)维护文件系统的目录结构 (3)管理文件与block之间关系,block与DataNode之间联系 D...
分类:
其他好文 时间:
2015-03-04 16:19:21
阅读次数:
140
从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeep就是对这些动物进行一些管理工作的。一、ZooKeeper基础介绍1.1 动物园也要保障安全 ....
分类:
其他好文 时间:
2015-02-27 15:04:28
阅读次数:
158
开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构....
分类:
其他好文 时间:
2015-02-27 01:26:53
阅读次数:
306
一、写在之前的1.1 回顾Map阶段四大步凑 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。1.2 实验场景数据文件 在一些特定的数据文件...
分类:
编程语言 时间:
2015-02-25 01:53:55
阅读次数:
302
一、回顾Reduce阶段三大步凑 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Reduce阶段总共三个步凑,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的.....
分类:
其他好文 时间:
2015-02-24 01:50:52
阅读次数:
465
一、Combiner的出现背景1.1 回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文.....
分类:
其他好文 时间:
2015-02-23 01:24:05
阅读次数:
854
一、初步探索Partitioner1.1 再次回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对,是需要送到.....
分类:
其他好文 时间:
2015-02-23 01:23:12
阅读次数:
242
一、Hadoop中的计数器计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容:hello youhello me 它被WordCount.....
分类:
其他好文 时间:
2015-02-22 18:28:57
阅读次数:
183
开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclips...
分类:
系统相关 时间:
2015-02-22 17:20:19
阅读次数:
312
一、测试数据:手机上网日志1.1 关于这个日志 假设我们如下一个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了优化,格式比较规整,便于学习研究。 该文件的内容如下(这里我只截取了三行):1363157993044 18211575961 94-71-AC-CD...
分类:
移动开发 时间:
2015-02-13 01:34:39
阅读次数:
192