码迷,mamicode.com
首页 > 其他好文 > 详细

MapReduce(七)InputSplit和HDFS block的关系

时间:2021-06-18 18:49:59      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:apr   pre   添加   red   之间   split   dfs   spl   例子   

InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。

我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么在mapper和block之间添加一个Split层的原因。

对于上面的例子,我们只需设置InputSplit的大小为130MB,mapper即可读到完整的日志行。

MapReduce(七)InputSplit和HDFS block的关系

标签:apr   pre   添加   red   之间   split   dfs   spl   例子   

原文地址:https://www.cnblogs.com/ralgo/p/14893897.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!