标签:重要 red path 数据处理 ble new t row str hello
mapreduce是hadoop生态中非常重要的一部分,顾名思义,主要分为两部分,map和reduce,他们各司其职,map的主要功能是用来对待处理的文档进行处理,主要是对数据进行按行读取,分割,然后根据用户需要进行不同的判断,清晰,直到得到目标的干净数据。reduce程序主要是对map传来的数据进行汇总,求和。最后经统计的结果输入到目标文件中。具体代码如下: WCMapper.java import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; //4个泛型,前两个是mapper输入数据的类型KENY是输入的key的类型,VALUIN是指的value的类型 //map和reduce的数据的输入输出都是以key-value的形式存在的 //默认情况下框架传递给我们的mapper框架输入数据,key是要处理文本的中一行的起始位置的偏移量,这一行的内容作为value public class WCMapper extends Mapper标签:重要 red path 数据处理 ble new t row str hello
原文地址:https://www.cnblogs.com/ljysy/p/11455790.html