码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop 小文件 挂载

时间:2017-10-26 21:00:05      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:nbsp   情况下   显示   长度   mapper   进程   一段   编写   namenode   

 

hadoop不支持传统文件系统的挂载,使得流式数据装进hadoop变得复杂。

hadoo中,文件只是目录项存在;在文件关闭前,其长度一直显示为0:如果在一段时间内将数据写到文件却没有将其关闭,则若网络中断后,则我们得到的仅仅是一个空白文件;故:最好编写小文件,这样能尽快将其关闭?

【mapper 单个文件块 1:1】

由于hdfs的元数据保存在NameNode的内存中,因此创建的文件越多,所需的RAM就越多。从MapReduce角度看,小文件会导致效率低下。通常情况下,,每个Mapper都会被分配单个文件块作为

输入(除非使用了某些压缩编码)。如果过多的小文件,那么与待处理的数据相比,与待处理的数据相比,启动工作进程的代价就过高。这种碎片会导致更多的Mapper任务,使得总的Job运行时间增加。

hadoop 小文件 挂载

标签:nbsp   情况下   显示   长度   mapper   进程   一段   编写   namenode   

原文地址:http://www.cnblogs.com/yuanjiangw/p/7738911.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!