HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop
1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:
其他好文 时间:
2014-05-10 02:08:24
阅读次数:
327
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello
World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。现在我们以"hadoop...
分类:
其他好文 时间:
2014-05-10 01:54:48
阅读次数:
445
适用场景: 当误操作修改系统启动文件/etc/fstab,
/etc/rc.d/rc.sysinit时,就会造成系统启动时读取磁盘或初始化环境失败,导致linux无法正常启动,此时就可以借助Linux的救援模式临时进入系统,进行文件修改,纠正错误救援(rescue)模式的本质:
只是一个带shell...
分类:
系统相关 时间:
2014-05-09 18:39:28
阅读次数:
408
Cygwin 是一个用于 Windows 的类 UNIX shell 环境。 它由两个组件组成:一个
UNIX API 库,它模拟 UNIX 操作系统提供的许多特性;以及 Bash shell 的改写版本和许多 UNIX 实用程序,它们提供大家熟悉的 UNIX
命令行界面。前一个组件是一个 Wind...
分类:
编程语言 时间:
2014-05-05 12:03:37
阅读次数:
456
1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode,
分别对应独立的物理机器
1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
分类:
其他好文 时间:
2014-05-05 10:35:14
阅读次数:
432
转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户,这是一个绝对的失策,linux对用户访问权限很严格,新创的hod账户根本无法启动hadoop,而root在hod模式下使...
分类:
系统相关 时间:
2014-05-05 10:09:20
阅读次数:
753
用C提供的取随机数的方法srand和rand, 前者是给后者设置随机数种子seed。int
rnd_num = 0;srand(seed); // time(NULL) 通常使用时间做种子rnd_num = rand(); //
产生随机数产生种子的方法:1. 使用日期时间 时间作为...
分类:
其他好文 时间:
2014-05-04 20:16:40
阅读次数:
564
MapReduce
job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:
其他好文 时间:
2014-05-04 10:22:15
阅读次数:
341
在我们日常的程序开发时候,有时候需要对一个已知的集合按照一定的规则进行排序,其实当数据的规模不太大时或者数据的有序特征比较明显,其实我们可以采用其它的排序算法例如:Bubble
Sort, Insertion Sort , Shell Sort 等。 但是前面3中算法的共同特点是,都是从原始的列表里...
分类:
Web程序 时间:
2014-05-04 10:19:22
阅读次数:
337
写程序的时候,适当地打印出一些进度或者日志信息...
分类:
其他好文 时间:
2014-05-04 09:29:23
阅读次数:
234