hadoop的简介与伪分布的搭建

时间：2018-04-10 11:44:42 阅读：177 评论：0 收藏：0 [点我收藏+]

一：大数据hadoop简介
二：hadoop的伪分布安装
三：运行wordcount测试
四：hadoop 常用端口号
五：hadoop的四大模块包含
六：启动脚本：

一：大数据hadoop简介

hadoop 简介： 
 开源软件，可靠的，可分布式，可伸缩的。

 去IOE 
---------
 IBM         // ibm 小型机
 Oracle      // oracle 数据库服务器
 EMC         // 共享存储柜

cluster:
-----------
 集群
 1T = 1024G 
 1P = 1024T 
 1E = 1024P
 1Z = 1024E
 1Y = 1024Z 
 1N = 1024Y 

 海量的数据：
  ------
  PB 

 大数据解决了两个问题：
 ---------------------
 1. 存储
     分布式存储
 2. 计算
     分布式计算
 云计算：
 ------
 1. 服务
 2. 虚拟化

 分布式： 
 --------------
  由分布在不同主机上的进程协同在一起，才能构成整个应用

  b/s 结构
  ---------------------
  Browser /http server： 瘦客端模式

  failure over // 容灾
  fault over   // 荣错

大数据4V特点：
-------------------
Volume : 容量大
variety: 多样化
velocity : 速度快  
valueless : 价值密度低

Hadoop 的四个模块
------------------
1. common 
2. hdfs 
3. hadoop yarn 
4. mapreduce (mr)

hadoop 的安装模式：
1. 独立模式 （standalone,local）
  nothing !
2. 伪分布模式 (pseudodistributed mode)
3. 集群模式 (cluster mode)

二：hadoop的伪分布安装

2.1 软件所需

1. jdk-8u151-linux-x64.tar.gz
2. hadoop-2.7.4.tar.gz

2.2 安装jdk

(1) 卸载原有jdk: 
rpm -e java-1.8.0-openjdk-devel-1.8.0.131-11.b12.el7.x86_64 java-1.7.0-openjdk-headless-1.7.0.141-2.6.10.5.el7.x86_64 java-1.8.0-openjdk-headless-1.8.0.131-11.b12.el7.x86_64 copy-jdk-configs-2.2-3.el7.noarch java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64 java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el7_3.x86_64 java-1.7.0-openjdk-1.7.0.141-2.6.10.5.el7.x86_64 java-1.6.0-openjdk-devel-1.6.0.41-1.13.13.1.el7_3.x86_64 java-1.7.0-openjdk-devel-1.7.0.141-2.6.10.5.el7.x86_64 --nodeps

(2) 创建安装目录:
mkdir /soft 

tar -zxvf jdk-8u151-linux-x64.tar.gz -C /soft 
cd /soft
ln -s jdk1.8.0_151 jdk
-----
配置环境变量
vim /etc/profile
----
最后加上：
# jdk
export JAVA_HOME=/soft/jdk
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin

---
source /etc/profile
java -version

技术分享图片

2.3 安装hadoop

cd software 
tar -zxvf hadoop-2.7.4.tar.gz -C /soft
cd /soft
ln -s hadoop-2.7.4 hadoop

配置环境变量
vim /etc/profile
----
到最后加上

# hadoop
export HADOOP_HOME=/soft/hadoop
PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

---
source /etc/profile
cd /soft/hadoop/
bin/hadoop version

技术分享图片

cd /soft/hadoop/etc/hadoop

编辑core-site.xml 文件：
 vim core-site.xml

<configuration> 
<property>
<name>hadoop.tmp.dir</name>
<value>/soft/hadoop/data</value>
<description>hadoop_temp</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://node01.yangyang.com:8020</value>
<description>hdfs_derect</description>
</property>
</configuration>

编辑hdfs-site.xml
vim hdfs-site.xml
------------------
<configuration>
<property>
<name>dfs.replication</name> 
<value>1</value>
<description>num</description>
 <name>dfs.namenode.http-address</name>
<value>node01.yangyang.com:50070</value>
</property>
</configuration>

编辑 mapred-site.xml

cp -p mapred-site.xml.template mapred-site.xml 

vim mapred-site.xml
------
<configuration>
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property> 
 <property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node01.yangyang.com:19888</value>
</property>
</configuration>

配置yarn-site.xml
vim yarn-site.xml
-----------------
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

#echo "export JAVA_HOME=/soft/jdk" >> hadoop-env.sh
#echo "export JAVA_HOME=/soft/jdk" >> mapred-env.sh
#echo "export JAVA_HOME=/soft/jdk" >> yarn-env.sh

格式化文件系统：
bin/hdfs namenode -format

技术分享图片

启动namenode 与 datanode 
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
打开浏览器：

技术分享图片

启动yarn
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
打开浏览器

技术分享图片

三：运行wordcount测试

hdfs dfs -mkdir /input 
vim file1

技术分享图片

hdfs dfs -put file1 /input 

cd /soft/hadoop/share/hadoop/mapreduce

yarn jar hadoop-mapreduce-examples-2.7.4.jar wordcount /input /output

技术分享图片

hdfs dfs -ls /output 
hdfs dfs -get /output

技术分享图片

启动jobhistoryserver

mr-jobhistory-daemon.sh start historyserver

技术分享图片

四： hadoop 常用端口号：

50070  //namenode http port 
50075  //datanode http port
50090  //SecondaryNameNode http port

8020  // namenode rpc port 
50010 // datanode rpc port

8088  //yarn http port 
8042   //nodemanager http port 
19888 // jobhistoryserver http port

五： hadoop的四大模块包含

common 

hdfs   // namenode + datanode+ secondarynamenode 

mapred 

yarn    //rescourcemanager + nodemanager

六：启动脚本：

1. start-all.sh   // 启动所有进程
2. stop-all.sh    // 停止所有进程

3. start-dfs.sh //  
     NN ,DN , SNN 

4. start-yarn.sh  //
    RM,NM

hadoop的简介与伪分布的搭建

标签：大数据 hadoop

原文地址：http://blog.51cto.com/flyfish225/2096374

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

hadoop的简介与伪分布的搭建

一： 大数据hadoop简介

二：hadoop的伪分布安装

2.1 软件所需

2.2 安装jdk

2.3 安装hadoop

三：运行wordcount测试

四： hadoop 常用端口号：

五： hadoop的四大模块包含

六： 启动脚本：

一：大数据hadoop简介

六：启动脚本：