HDFS优点:
1. 高容错性。
a) 数据自动保存多个副本
b) 副本丢失后,自动恢复
2. 适合批处理
a) 移动计算而非移动数据
b) 数据位置暴露给计算框架
3. 适合大数据处理
a) GB、TB、甚至PB级数据
b) 百万规模以上的文件数量
c) 10K + 节点
4. 可构件在廉价机器上
a) 通过多副本提高可靠性
b) 提供了容错和恢复机制
HDFS缺点:
1. 低延迟数据访问
a) 比如毫秒级
b) 低延迟与高吞吐量
2. 小文件存取
a) 占用NameNode大量内存
b) 寻道时间超过读取时间
3. 并发写入、文件随机修改
a) 一个文件只能有一个写者
b) 仅支持append
HDFS对大量小文件的处理办法:对小文件压缩,就是说一万个小文件在HDFS上只作为一个文件进行存储,就是进行压缩处理。
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/wild_elegance_k/article/details/47689031