码迷,mamicode.com
首页 >  
搜索关键字:fileinputformat    ( 52个结果
MapReduce计数器
计数器输出 运行完毕作业之后的计数器输出 内置计数器 hadoop为每个作业提供了若干内置计数器,用以描述各项指标。 文件系统计数器 所属类:org.apache.hadoop.mapreduce.FileSystemCounter BYTES_READ:文件系统读取的字节数 BYTES_WRITTEN:文件系统写的字节数 FileInputFormat任务计数器 ...
分类:其他好文   时间:2015-06-28 12:50:10    阅读次数:168
hive job sql 优化 之CPU占有过高
最近有个SQL运行时长超过两个小时,所以准备优化下首先查看hivesql产生job的counter数据发现总的CPUtimespent过高估计100.4319973小时每个map的CPUtimespent排第一的耗了2.0540889小时建议设置如下参数:1、mapreduce.input.fileinputformat.split.maxsize现在是256000000往下..
分类:数据库   时间:2015-05-27 10:27:10    阅读次数:293
Hadoop之——MapReduce实战(二)
MapReduce的老api写法 import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapred.FileInputFormat; import org.apache.hadoop.mapred.FileOutputFormat; import org.apache.hadoop.mapred.JobClient; impo...
分类:其他好文   时间:2015-05-24 23:39:03    阅读次数:245
Hadoop FileInputFormat实现原理及源码分析
FileInputFormat(org.apache.hadoop.mapreduce.lib.input.FileInputFormat)是专门针对文件类型的数据源而设计的,也是一个抽象类,它提供两方面的作用:(1)定义Job输入文件的静态方法;(2)为输入文件形成切片的通用实现;至于如何将切片中...
分类:其他好文   时间:2015-05-19 12:54:34    阅读次数:155
InputFormat,OutputFormat,InputSplit,RecordRead(一些常见面试题),使用yum安装64位Mysql
列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用...
分类:数据库   时间:2015-05-15 07:53:10    阅读次数:752
FileInputFormat
最顶级是InputFormat抽象类 ,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成...
分类:其他好文   时间:2015-04-23 12:22:19    阅读次数:202
Hadoop进阶之输入路径如何正则通配?
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:    如上图,里面有  (1)addInputPath(),每次添加一个输入路径Path  (2)addInputPaths, 将多个路径以逗号分割的字符串,作为入参,支持多个路径  (3...
分类:其他好文   时间:2015-04-21 22:46:22    阅读次数:173
Hadoop进阶之输入路径如何正则通配?
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:? ? 如上图,里面有? (1)addInputPath(),每次...
分类:其他好文   时间:2015-04-21 20:53:53    阅读次数:399
启动Hive的时候有很多WARN和INFO信息
配置好hive后,输入hive命令启动时会出现许多INFO和WARN信息。如下: 15/04/21 11:31:45 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive 15/04/21 11:31:45 INFO Configuration.deprecation: mapred.m...
分类:其他好文   时间:2015-04-21 14:45:42    阅读次数:540
MapReduce处理输出多文件格式(MultipleOutputs)
MultiPleOutputs原理 MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如part-(m|r)-00000之类,但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR job运行之后,用脚本对目录下的数据...
分类:其他好文   时间:2015-03-30 18:53:36    阅读次数:172
52条   上一页 1 2 3 4 5 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!