Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j...
分类:
其他好文 时间:
2014-07-22 22:55:15
阅读次数:
271
一、环境及软件安装环境:安装目录: /usr/local/ae/ankabanHadoop 安装目录 export HADOOP_HOME=/usr/local/ae/hadoop-1.2.1azkaban-executor-2.5.0安装目录:/usr/local/ae/azkaban/azkab...
分类:
其他好文 时间:
2014-07-16 19:08:09
阅读次数:
2894
http://hadoop.apache.org/docs/r1.2.1/fair_scheduler.htmlfair-scheduler.xml文档 5 5 15 15 300 5 5 5 3 600 ...
分类:
其他好文 时间:
2014-07-16 18:31:19
阅读次数:
213
源码编译我的测试环境:系统:Centos 6.4 - 64位Java:1.7.45Scala:2.10.4Hadoop:2.2.0Spark 1.0.0源码地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz解压源码,在根去根目录下执行以下命...
分类:
其他好文 时间:
2014-07-16 18:01:44
阅读次数:
405
1、YARN或将成为Hadoop新发力点http://www.csdn.net/article/2013-06-27/2816031-hadoop-yarn2、更快、更强——解析Hadoop新一代MapReduce框架Yarnhttp://www.csdn.net/article/2014-02-1...
分类:
其他好文 时间:
2014-07-16 16:45:34
阅读次数:
198
1、MapReduce理论简介
1.1 MapReduce编程模型
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。
在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job...
分类:
其他好文 时间:
2014-07-16 16:20:31
阅读次数:
326
HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。
分类:
其他好文 时间:
2014-07-16 16:11:21
阅读次数:
275
本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 h...
分类:
其他好文 时间:
2014-07-16 15:55:52
阅读次数:
325
hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于大多数程序猿/媛来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。
分类:
其他好文 时间:
2014-07-16 15:39:42
阅读次数:
485
最近需要把基于hadoop的MapReduce程序集成到一个大的用C/C++编写的框架中,需要在make的时候自动将MapReduce应用进行编译和打包。这里以简单的WordCount1为例说明具体的实现细节,注意:hadoop版本为2.4.0....
分类:
其他好文 时间:
2014-07-16 09:38:06
阅读次数:
379