码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop学习笔记(二)

时间:2016-04-29 15:06:22      阅读:122      评论:0      收藏:0      [点我收藏+]

标签:

hadoop学习笔记(二)

我的个人博客站点地址:孙星的个人博客主页
后续的学习笔记:hadoop学习笔记

hadoop单节点的搭建

下载hadoop:

wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz

解压配置免密码登陆:

//生成秘钥
ssh-keygen -t rsa

//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa:         私钥
id_rsa.pub:     公钥

//创建认证文件
cat id_rsa.pub >> authorized_keys

配置hosts

主要是修改其中的hostname和对应的ip,修改如下:


技术分享

配置相应的配置文件

进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:


技术分享

其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:

hadoop-env.sh:


技术分享

core-site.xml:


技术分享

hdfs-site.xml:


技术分享

mapred-site.xml:


技术分享

yarn-site.sh:


技术分享

运行hadoop

配置好以后,需要先格式化一下,格式的命令如下:

hadoop namenode -format

格式化NameNode的动作,主要做了一下一下内容:

* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立

格式完hadoop以后就可以启动hadoop了,启动的命令如下:

cd /usr/loca/share/hadoop2.7.1

./sbin/start-all.sh

启动过后的进程数据如下:


技术分享


技术分享

hadoop的wordcount的程序的开发

代码结构如下:


技术分享

自定义mapper类代码如下:


技术分享

自定义reducer类代码如下:


技术分享

wordcount程序的数据源:


技术分享

wordcount程序的执行过程:


技术分享

wordcount程序的结果展示:


技术分享

hadoop学习笔记(二)

标签:

原文地址:http://blog.csdn.net/sunxing2016/article/details/51280846

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!