标签:
我的个人博客站点地址:孙星的个人博客主页
后续的学习笔记:hadoop学习笔记
wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz
//生成秘钥
ssh-keygen -t rsa
//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa: 私钥
id_rsa.pub: 公钥
//创建认证文件
cat id_rsa.pub >> authorized_keys
主要是修改其中的hostname和对应的ip,修改如下:
进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:
其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:
hadoop-env.sh:
core-site.xml:
hdfs-site.xml:
mapred-site.xml:
yarn-site.sh:
配置好以后,需要先格式化一下,格式的命令如下:
hadoop namenode -format
格式化NameNode的动作,主要做了一下一下内容:
* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立
格式完hadoop以后就可以启动hadoop了,启动的命令如下:
cd /usr/loca/share/hadoop2.7.1
./sbin/start-all.sh
启动过后的进程数据如下:
代码结构如下:
自定义mapper类代码如下:
自定义reducer类代码如下:
wordcount程序的数据源:
wordcount程序的执行过程:
wordcount程序的结果展示:
标签:
原文地址:http://blog.csdn.net/sunxing2016/article/details/51280846