Hadoop旧版中InputSplit的个数由下面三个参数决定:
goalSize:totalSize/numSpilt.totalSize为文件大小,numSplit为用户设定的map task个数,默认为1.
minSize:InputSplit的最小值,由配置参数 mapred.min.split.size,默认为1.
blockS...
分类:
其他好文 时间:
2015-05-26 12:47:23
阅读次数:
218
前面已经完成了对org.apache.hadoop.mapreduce的分析,这个包提供了Hadoop
MapReduce部分的应用API,用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的,目前MapReduce框架还是使用老系统(参考补丁HADOOP-1230)。下面我们来分析org.apache.hadoop.mapre..
分类:
其他好文 时间:
2015-05-25 20:44:11
阅读次数:
139
Hadoop源代码分析(包hadoop.mapred中的MapReduce接口)
前面已经完成了对org.apache.hadoop.mapreduce的分析,这个包提供了Hadoop MapReduce部分的应用API,用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的,目前MapReduce框架还是使用老系统(参考补丁HADOOP-1230)。下面我们来分...
分类:
其他好文 时间:
2015-05-25 16:51:35
阅读次数:
146
前面已经完成了对org.apache.hadoop.mapreduce的分析,这个包提供了Hadoop MapReduce部分的应用API,用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的,目前MapReduce框架还是使用老系统(...
分类:
其他好文 时间:
2015-05-25 14:56:44
阅读次数:
177
MapReduce的老api写法
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
impo...
分类:
其他好文 时间:
2015-05-24 23:39:03
阅读次数:
245
准备linux环境【java、ip、hostname、hosts、iptables、chkconfig、ssh】
下载稳定版2.6.0
修改etc/hadoop目录下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml
启动
验证
下面主要配置文件:
core-site.xml:
fs.defau...
分类:
其他好文 时间:
2015-05-23 18:29:52
阅读次数:
215
Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法1. order byset hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict;...
分类:
编程语言 时间:
2015-05-19 18:30:47
阅读次数:
131
HADOOP运行mr程序时报错:
15/05/18 19:25:33 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
15/05/18 19:25:34 INFO ipc.C...
分类:
编程语言 时间:
2015-05-18 20:50:25
阅读次数:
272
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m
2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:
hive.metastore.warehouse.dir value >/user/hive/warehouse descriptio...
分类:
其他好文 时间:
2015-05-14 18:50:49
阅读次数:
177
dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),mapred.map.tasks.speculative.execution=truemapred.reduce.tasks.speculati...
分类:
其他好文 时间:
2015-05-11 12:20:01
阅读次数:
186