1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论...
分类:
其他好文 时间:
2015-05-14 09:57:51
阅读次数:
211
hadoop启动jobhistoryserver来实现web查看作业的历史运行情况,由于在启动hdfs和Yarn进程之后,jobhistoryserver进程并没有启动,需要手动启动,启动的方法是通过:mr-jobhistory-daemon.sh start historyserver 命令还.....
分类:
其他好文 时间:
2015-05-13 19:27:27
阅读次数:
127
1、我理解常用的Spark部署方式有三种1)、本地服务,就是所谓的local,在IDE上本地跑程序,用于调试2)、Standalone,使用自己的master/worker进行服务的调度。 脱离yarn的资源管理3)、Spark on yarn。 使用yarn来进行资源的调度2、在spark-env...
分类:
其他好文 时间:
2015-05-07 18:33:08
阅读次数:
153
YARN Container 启动流程分析本文档从代码出发,分析了 YARN 中 Container 启动的整个过程,希望给出这个过程的一个整体的概念。文档分为两个部分:第一部分是全局,从头至尾地把 Container 启动的整个流程串联起来;第二部分是细节,简要分析了 Container 启动流程中涉及到的服务、接口和类。...
分类:
其他好文 时间:
2015-05-05 21:52:11
阅读次数:
123
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理、优势、运作机制和配置方法等;着重介绍新的Yarn框架相对于原框架的差异及改进。编者按:对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop...
分类:
其他好文 时间:
2015-05-04 21:55:55
阅读次数:
163
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。
一、相关配置情况
关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/re...
分类:
其他好文 时间:
2015-05-04 11:57:50
阅读次数:
184
前提:有一个hadoop集群,并且拷贝core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml到classpath下,可以使src/main/resources1.获取一个GetNewApplicationRequest,实例是protobu...
分类:
移动开发 时间:
2015-04-29 16:28:53
阅读次数:
197
spark streaming 如果以local 模式运行,log日志非常清楚。
如果log 日志是运行在yarn 模式下,driver 的日志可以通过reource manager 日志看到。但是executor的日志却看不到,我们往往错误都发生在executor里,比如典型的错误:如果我们连接hbase去存取数据的话,我们会在driver里初始化了连接,缺忽略的excutors里,导致程序出错...
分类:
其他好文 时间:
2015-04-29 13:38:51
阅读次数:
290
一、前言
与Hadoop1.x相比,Hadoop2.x中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。这两个NameNode的地位如何哪?
答:一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的NameNode是正常工作的,standby状态的NameNode是处于待命状态的,时刻同步active状态NameNod...
分类:
其他好文 时间:
2015-04-29 11:50:48
阅读次数:
313