码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop学习(一) 伪分布式环境初体验

时间:2016-08-14 02:07:58      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:hadoop   hdfs   yarn   

前期准备
1、创建hadoop相关目录(便于管理)
2、给/opt/*目录赋予hadoop用户及所有组权限
sudo chrown -R hadoop:hadoop /opt/*
3、JDK安装与配置
配置HDFS/YARN/MAMREDUCE
1、解压hadoop
tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/
(删除doc下的帮助文档,节省空间)
rm -rf /opt/modules/hadoop-2.5.0/share/doc/
2、配置hadoop-env.sh
cd /opt/modules/hadoop-2.5.0/etc/hadoop
vi hadoop-env.shexport JAVA_HOME=/usr/local/jdk1.7.0_67

验证是否配置成功
/opt/modules/hadoop-2.5.0/bin/hadoop
3、配置core-site.xml
<!--指定namenode所在机器的位置和访问交互端口号--><property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop.lianwei.org(主机名):8020</value></property><!--指定Hadoop运行时的临时目录--><property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/modules/hadoop-2.5.0/data/tmp</value></property>
4、配置slaves
vi /opt/module/hadoop-2.5.0/etc/hadoop/slaves
将内容改为指定datanode所在机器位置:hadoop.lianwei.org
5、配置hdfs-site.xml
vi /opt/module/hadoop-2.5.0/etc/hadoop/hdfs-site.xml<!--指定系统中文件的块的副本个数--><property>
    <name>dfs.replication</name>
    <value>1</value>(分布式中默认是3个)</property>
6、格式化namenode
bin/hdfs namenode -format
注:会在hadoop.tmp.dir下生成dfs/name/current/fsimage_*(镜像文件)
7、启动hdfs
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanodejps(查看是否启动成功)
8、浏览器查看web控制台
http://hadoop.lianwei.org:50070

技术分享

9、配置yarn-site.xml
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value></property>指定resorcemanager所在机器的位置:<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop.lianwei.org</value></property>
10、启动resourcemanager、nodemanager
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
11、通过浏览器查看YARN WEB-UI界面
http://hadoop.lianwei.org:8088

技术分享

12、配置mapred-site.xml
指定mapreduce运行在YARN上<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value></property>
13、测试wordcount案例运行
在HDFS中创建待处理文件目录
bin/hdfs dfs -mkdir -p /user/lianwei/mapreduce/examples/wordcount/input
上传待处理文件到HDFS中的待处理目录中
bin/hdfs dfs -put /opt/data/lv.input /user/lianwei/mapreduce/examples/wordcount/input
执行命令
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/lianwei/mapreduce/examples/wordcount/input /user/lianwei/mapreduce/examples/wordcount/output(输出目录不能手动创建且不能存在,否则会覆盖)
14、在WEB UI中查看运行结果

技术分享

注意事项:

1、centos之前的版本防火墙是iptables,但是centos7.0默认使用的是firewall作为防火墙

systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止firewall开机启动firewall-cmd --state #查看默认防火墙状态(关闭后显示notrunning,开启后显示running)


本文出自 “11954530” 博客,请务必保留此出处http://11964530.blog.51cto.com/11954530/1837651

hadoop学习(一) 伪分布式环境初体验

标签:hadoop   hdfs   yarn   

原文地址:http://11964530.blog.51cto.com/11954530/1837651

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!