Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hado ...
分类:
其他好文 时间:
2016-04-10 06:44:07
阅读次数:
236
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S ...
分类:
其他好文 时间:
2016-04-09 23:25:02
阅读次数:
361
安装JDK安装Hadoop配置环境变量配置core-site.xml配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置slaves安装JDKcd/usr/local/srcwgethttp://download.oracle.com/otn-pub/java/jdk/8u73-b02/jdk-8u73-linux-x64.tar.gz?AuthParam=1458008151_64a44ef61864b914ee2cb..
分类:
其他好文 时间:
2016-04-08 15:35:55
阅读次数:
175
客户端:提交MapReduce job YARN resouce manager,协调集群计算资源分配 YARN node manager,产生并且监控在集群中的机器上的containers MapReduce application master,协调MapReduce job中运行的task H ...
分类:
其他好文 时间:
2016-04-08 10:11:40
阅读次数:
169
在使用windows调用Hadoop yarn平台的时候,一般都会遇到如下的错误: 这个错误在Hadoop mapreduce bug的信息页面(https://issues.apache.org/jira/browse/MAPREDUCE-5655)已经解决了,且影响的版本是Hadoop2.2、H ...
之前只他调整过dfs 的存储目录到最大配额的目录,其它没有处理(就是在默认的/ 目录下,而这个目录的存储配额只有50G) 运行一周的时间不到,集群开始告警,查看是目录/ 的存储占用超过了60% 再查看具体目录情况,主要占用的目录有四个,分别是: /yarn 11G /var 9.6G /opt 4. ...
分类:
其他好文 时间:
2016-04-05 10:46:56
阅读次数:
166
出自:https://segmentfault.com/a/1190000000709725 Hadoop参数大全 主要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 一般 不重要 core-default.xml hadoop.common.configuratio ...
分类:
其他好文 时间:
2016-04-05 09:22:33
阅读次数:
253
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中。当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,假设企业已经有 Yarn ...
分类:
其他好文 时间:
2016-03-31 14:12:30
阅读次数:
351
一、导读 最近开始学习大数据分析,说到大数据分析,就必须提到Hadoop与Spark。要研究大数据分析,就必须安装这两个软件,特此记录一下安装过程。Hadoop使用V2版本,Hadoop有单机、伪分布式、分布式三种部署方案,这里使用分布式部署方案。而Spark有三种部署方案:Standalone, ...
分类:
其他好文 时间:
2016-03-29 16:18:01
阅读次数:
299
CDH对我们已经封装了,我们如果需要Spark on Yarn,只需要yum安装几个包就可以了。前面的文章我有写过如果搭建自己内网的CDH Yum服务器,请参考《CDH 5.5.1 Yum源服务器搭建》http://www.cnblogs.com/luguoyuanf/p/56187ea1049f4... ...
分类:
其他好文 时间:
2016-03-26 12:18:57
阅读次数:
153