搜索关键字：fileinputformat，搜索到52个结果！码迷,mamicode.com！

MapReduce计数器

计数器输出运行完毕作业之后的计数器输出内置计数器 hadoop为每个作业提供了若干内置计数器，用以描述各项指标。文件系统计数器所属类：org.apache.hadoop.mapreduce.FileSystemCounter BYTES_READ：文件系统读取的字节数 BYTES_WRITTEN：文件系统写的字节数 FileInputFormat任务计数器 ...

分类：其他好文时间：2015-06-28 12:50:10 阅读次数：168

hive job sql 优化之CPU占有过高

最近有个SQL运行时长超过两个小时，所以准备优化下首先查看hivesql产生job的counter数据发现总的CPUtimespent过高估计100.4319973小时每个map的CPUtimespent排第一的耗了2.0540889小时建议设置如下参数：1、mapreduce.input.fileinputformat.split.maxsize现在是256000000往下..

分类：数据库时间：2015-05-27 10:27:10 阅读次数：293

Hadoop之——MapReduce实战（二）

MapReduce的老api写法 import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapred.FileInputFormat; import org.apache.hadoop.mapred.FileOutputFormat; import org.apache.hadoop.mapred.JobClient; impo...

分类：其他好文时间：2015-05-24 23:39:03 阅读次数：245

Hadoop FileInputFormat实现原理及源码分析

FileInputFormat（org.apache.hadoop.mapreduce.lib.input.FileInputFormat）是专门针对文件类型的数据源而设计的，也是一个抽象类，它提供两方面的作用：（1）定义Job输入文件的静态方法；（2）为输入文件形成切片的通用实现；至于如何将切片中...

分类：其他好文时间：2015-05-19 12:54:34 阅读次数：155

InputFormat,OutputFormat,InputSplit,RecordRead(一些常见面试题),使用yum安装64位Mysql

列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用...

分类：数据库时间：2015-05-15 07:53:10 阅读次数：752

FileInputFormat

最顶级是InputFormat抽象类，该类定义了两个方法，方法getSplits是负责切分输入文件(们)的，把很多的输入文件(们)切分成很多的输入分片，切分规则就是在这里定义的，每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成...

分类：其他好文时间：2015-04-23 12:22:19 阅读次数：202

Hadoop进阶之输入路径如何正则通配？

在hadoop的编程中，如果你是手写MapReduce来处理一些数据，那么就避免不了输入输出参数路径的设定，hadoop里文件基类FileInputFormat提供了如下几种api来制定：如上图，里面有（1）addInputPath()，每次添加一个输入路径Path （2）addInputPaths，将多个路径以逗号分割的字符串，作为入参，支持多个路径（3...

分类：其他好文时间：2015-04-21 22:46:22 阅读次数：173

Hadoop进阶之输入路径如何正则通配？

在hadoop的编程中，如果你是手写MapReduce来处理一些数据，那么就避免不了输入输出参数路径的设定，hadoop里文件基类FileInputFormat提供了如下几种api来制定：? ? 如上图，里面有? （1）addInputPath()，每次...

分类：其他好文时间：2015-04-21 20:53:53 阅读次数：399

启动Hive的时候有很多WARN和INFO信息

配置好hive后，输入hive命令启动时会出现许多INFO和WARN信息。如下： 15/04/21 11:31:45 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive 15/04/21 11:31:45 INFO Configuration.deprecation: mapred.m...

分类：其他好文时间：2015-04-21 14:45:42 阅读次数：540

MapReduce处理输出多文件格式(MultipleOutputs)

MultiPleOutputs原理 MapReduce job中，可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如part-(m|r)-00000之类，但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR job运行之后，用脚本对目录下的数据...

分类：其他好文时间：2015-03-30 18:53:36 阅读次数：172

共52条上一页 1 2 3 4 5 6 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)