码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop原理

时间:2018-10-31 22:12:51      阅读:275      评论:0      收藏:0      [点我收藏+]

标签:脏数据   调度   cpu   可靠   搜索   分享图片   基础设施   图片   模块   

 原理讲解::   https://www.cnblogs.com/mmzs/p/8031137.html#_label0_0

Hadoop项目主要包括以下四个模块

◆ Hadoop Common: 
为其他Hadoop模块提供基础设施 
◆ Hadoop HDFS: 
一个高可靠、高吞吐量的分布式文件系统 
◆ Hadoop MapReduce: 
一个分布式的离线并行计算框架 
◆ Hadoop YARN: 
一个新的MapReduce框架,任务调度与资源管理

 

Apache Hadoop起源

◆Apache Lucene 
开源的高性能全文检索工具包 
◆Apache Nutch 
开源的Web搜索引擎 
◆Google三大论文 
MapReduce/GFS/BigTable 
◆Apache Hadoop 
大规模数据处理

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

 

(基于磁盘IO进行迭代,开销较大)

◆将计算过程分为两个阶段:Map和Reduce 
Map阶段并行处理输入数据 ;
Reduce阶段对Map结果进行汇总 ;
◆ Shuffle链接Map和Reduce两个阶段(Shuffle通俗的理解就是重新洗牌,打乱原有顺序) 
Map Task将数据写到本地磁盘 ;
Reduce Task从每个Map Task上读取一份数据 ;
◆ 仅适合离线批处理 
具有很好的容错性和扩展性 ;
适合简单的批处理任务 ;
◆ 缺点明显: 
启动开销大,过多使用磁盘导致效率低下等;

map tasks的个数只要是看splitSize,一个文件根据splitSize分成多少份就有多少个map tasks。

该slave节点上有多少个MapTask运行,取决于该slave节点分配到了多少块(一般默认128M);

slave的cpu是几核的会影响MapTask是单线程还是多线程,及其运行效率;

如果它出现问题,挂掉,会将没运行完的块交给其它slave节点重新运算;

技术分享图片

 测试一测试二测试三测试四测试五测试六测试小结

 

【测试中如果遇到没有输出结果,只有输出目录的情况;那么很可能是犯了小错误;比如:Mapper中的输入键值必须是LongWriteable和Text;outKey和outValue的类型不对,或者没有初始化;Driver类中Job任务没提交;

                  还有就是读取的文件中的数据在map中字段没有正确对应;数据中有的字段是脏数据,需要处理;导致匹配不成功,从而输出失败。

 

hadoop原理

标签:脏数据   调度   cpu   可靠   搜索   分享图片   基础设施   图片   模块   

原文地址:https://www.cnblogs.com/han-guang-xue/p/9886171.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!