计数器输出
运行完毕作业之后的计数器输出
内置计数器
hadoop为每个作业提供了若干内置计数器,用以描述各项指标。
文件系统计数器
所属类:org.apache.hadoop.mapreduce.FileSystemCounter
BYTES_READ:文件系统读取的字节数
BYTES_WRITTEN:文件系统写的字节数
FileInputFormat任务计数器
...
分类:
其他好文 时间:
2015-06-28 12:50:10
阅读次数:
168
最近有个SQL运行时长超过两个小时,所以准备优化下首先查看hivesql产生job的counter数据发现总的CPUtimespent过高估计100.4319973小时每个map的CPUtimespent排第一的耗了2.0540889小时建议设置如下参数:1、mapreduce.input.fileinputformat.split.maxsize现在是256000000往下..
分类:
数据库 时间:
2015-05-27 10:27:10
阅读次数:
293
MapReduce的老api写法
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
impo...
分类:
其他好文 时间:
2015-05-24 23:39:03
阅读次数:
245
FileInputFormat(org.apache.hadoop.mapreduce.lib.input.FileInputFormat)是专门针对文件类型的数据源而设计的,也是一个抽象类,它提供两方面的作用:(1)定义Job输入文件的静态方法;(2)为输入文件形成切片的通用实现;至于如何将切片中...
分类:
其他好文 时间:
2015-05-19 12:54:34
阅读次数:
155
列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用...
分类:
数据库 时间:
2015-05-15 07:53:10
阅读次数:
752
最顶级是InputFormat抽象类 ,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成...
分类:
其他好文 时间:
2015-04-23 12:22:19
阅读次数:
202
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:
如上图,里面有
(1)addInputPath(),每次添加一个输入路径Path
(2)addInputPaths, 将多个路径以逗号分割的字符串,作为入参,支持多个路径
(3...
分类:
其他好文 时间:
2015-04-21 22:46:22
阅读次数:
173
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:? ? 如上图,里面有? (1)addInputPath(),每次...
分类:
其他好文 时间:
2015-04-21 20:53:53
阅读次数:
399
配置好hive后,输入hive命令启动时会出现许多INFO和WARN信息。如下:
15/04/21 11:31:45 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive
15/04/21 11:31:45 INFO Configuration.deprecation: mapred.m...
分类:
其他好文 时间:
2015-04-21 14:45:42
阅读次数:
540
MultiPleOutputs原理
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如part-(m|r)-00000之类,但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR
job运行之后,用脚本对目录下的数据...
分类:
其他好文 时间:
2015-03-30 18:53:36
阅读次数:
172