由于Hadoop版本混乱多变,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),...
分类:
其他好文 时间:
2014-10-20 23:18:24
阅读次数:
292
在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:
第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java
第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeChoosingPolicy.java...
分类:
其他好文 时间:
2014-10-11 14:58:55
阅读次数:
212
一、概述
1、现在有三台机器,分别是:Hadoop1,Hadoop2,Hadoop3,以Hadoop1为日志汇总
2、Hadoop1汇总的同时往多个目标进行输出
3、Flume一个数据源对应多个channel,多个sink,是在consolidation-accepter.conf文件里配置的
二、部署Flume来采集日志和汇总日志
1、在Hadoop1上运行fl...
分类:
Web程序 时间:
2014-10-10 17:10:34
阅读次数:
568
装hive装了1天多时间,总算装好了。下面记录一下安装的步骤。一:安装hive之前,需要安装好hadoop 和mysql.这里就不在赘述了。二:下载hive0.9.0(http://archive.apache.org/dist/hive/hive-0.9.0/),上传到Ubuntu用户目录下。然后...
分类:
数据库 时间:
2014-10-09 14:36:43
阅读次数:
268
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了。对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么。 通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T ...
分类:
其他好文 时间:
2014-10-09 13:05:13
阅读次数:
292
启动hadoop1.start-all.sh 可以看到这个脚本包含两个部分,start-dfs.sh和start-mapred.sh2.start-dfs.sh包含 "$HADOOP_COMMON_HOME"/bin/hadoop-daemon.sh --config $HADOOP_CONF_DI...
分类:
其他好文 时间:
2014-10-08 18:01:15
阅读次数:
212
我使用hadoop的是hadoop1.1.2,而很多公司也在使用hadoop0.2x版本,因此市面上的hadoop资料版本不一,为了扩充自己的知识面,MapReduce的新旧api进行了比较研究。 hadoop版本1.x的包一般是mapreduce hadoop版本0.x的包一般是mapre...
本章内容什么是HadoopHadoop项目及其结构Hadoop的体系结构Hadoop与分布式开发Hadoop计算模型—MapReduceHadoop的数据管理小结1.1 什么是Hadoop1.1.1 Hadoop概述Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布...
分类:
其他好文 时间:
2014-09-25 15:48:39
阅读次数:
320
前序:因在widow下用Eclipse联调hadoop2.2.0运行程序没有成功,网上暂时解决办法不多,就折中了下,连接hadoop1.0.3伪分布式
一。用到的环境和工具
1.Eclipse采用的是indio版本,这个可以用官网下载
2.Eclipse hadoop插件:hadoop-eclipse-plugin-1.0.3.jar,
下载地址:http://download.c...
mapred.min.split.size意思和字面上的一样,折腾了半天,发现发起任务的机子上,而非只是主机需要配置该项。。mapred.map.tasksjob的总map任务数,本来以为总文件数/实际的SplitSize就可以了,不太明白还要这项有什么用。。不过下面这个例子应该可以说明些问题:我所在公司所使..
分类:
其他好文 时间:
2014-09-17 18:53:33
阅读次数:
225