码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop之——前期准备篇

时间:2015-05-24 12:59:35      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:hadoop   hdfs   并行计算   格式化   分布式文件系统   

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/45950837

一、Hadoop核心项目

  •     HDFS: Hadoop Distributed File System 分布式文件系统
  •     MapReduce:并行计算框架

二、HDFS的架构

  •   主从结构
  •   主节点,只有一个: namenode
  •   从节点,有很多个: datanodes
  •   namenode负责:
  •   接收用户操作请求
  •   维护文件系统的目录结构
  •   管理文件与block之间关系,block与datanode之间关系
  •   datanode负责:
  •   存储文件
  •   文件被分成block存储在磁盘上
  •   为保证数据安全,文件会有多个副本

三、MapReduce的架构

  •    主从结构
  •   主节点,只有一个: JobTracker
  •   从节点,有很多个: TaskTrackers
  •  JobTracker负责:
  •   接收客户提交的计算任务
  •   把计算任务分给TaskTrackers执行
  •   监控TaskTracker的执行情况
  •  TaskTrackers负责:
  •   执行JobTracker分配的计算任务

四、Hadoop的特点

 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

五、Hadoop集群的物理分布

技术分享

六、单节点物理结构

技术分享

七、Hadoop部署方式

  •   本地模式
  •   伪分布模式
  •   集群模式

八、伪分布模式安装步骤

  •  关闭防火墙
  •   修改ip
  •  修改hostname
  •   设置ssh自动登录
  •   安装jdk
  •   安装hadoop

九、修改hadoop配置文件

  • hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/

  • 2.core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop0:9000</value>
        <description>change your own hostname</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>  
</configuration>

  • 3.hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

  • 4.mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop0:9001</value>
        <description>change your own hostname</description>
    </property>
</configuration>

十、启动Hadoop

    先格式化namenode  hadoop namenode -format

   在执行start-all.sh

技术分享

十一、浏览Hadoop

技术分享


技术分享

Hadoop之——前期准备篇

标签:hadoop   hdfs   并行计算   格式化   分布式文件系统   

原文地址:http://blog.csdn.net/l1028386804/article/details/45950837

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!