码迷,mamicode.com
首页 > 其他好文 > 详细

HDFS小文件物理空间占用验证

时间:2015-05-07 01:08:36      阅读:200      评论:0      收藏:0      [点我收藏+]

标签:hdfs小文件占用物理空间验证

项目环境中遇到的小文件较多,起初除了NAMENODE的内存外,还是比较担心文件物理空间的占用。于是就看一下,小文件是如何占用物理空间的:


前提HDFS块大小为64MB

      文件副本总共3


1、  批量生成小文件(均20M

技术分享


2、  记录测试前DFS空间使用情况

技术分享

目前,DFS空间已经使用50.04GB


3、  HIVELOAD一个文件testaa

技术分享


4、  再次查看DFS空间使用情况

技术分享


5、 查看文件testaa所在的块占用的空间情况

技术分享

Total size可以看出:占用物理空间为20MB


6、 再次LOAD一个文件testab

技术分享

7、 查看DFS空间使用情况

技术分享

DFS空间使用50.16GB


8、  查看文件testab所在块占用空间情况

技术分享Testab占用物理空间也为20MB


9、  批量加载小文件

技术分享


10、执行该脚本

技术分享

技术分享


11、再次查看DFS空间使用情况

技术分享



从以上测试得到:

    DFS起始占用空间大小:50.04GB

       加载26个文件20MB后,DFS占用空间大小:51.58GB

计算:

       计算每个文件占用的DFS空间大小:

          51.58GB-50.04GB*1024/26=60.65MB

       文件占用物理空间大小:

           20MB*3=60MB

结论:

    小于块大小的小文件不会占用整个HDFS块空间。也就是说,较多的小文件会占用更多的NAMENODE的内存(记录了文件的位置等信息);再者,在文件处理时,可能会有较大的网络开销。


本文出自 “一步.一步” 博客,请务必保留此出处http://snglw.blog.51cto.com/5832405/1643587

HDFS小文件物理空间占用验证

标签:hdfs小文件占用物理空间验证

原文地址:http://snglw.blog.51cto.com/5832405/1643587

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!