从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。
以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.2.0版本的时候,发现相应的Service Host Monitor 和 Service Monitor不能配置外部表,刚开是还以为是配置出错,后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档,果然发现,新版本中Service ...
分类:
数据库 时间:
2014-11-14 12:39:43
阅读次数:
316
当我们在运行作业的过程中也可以查看Web控制台的信息: 此时发现了一个作业ID,点击进入可以查看作业进一步的信息: ? 进一步看通过Web控制台看SparkWorker1中的Container中的运行信息: 刷新Web控制台:...
分类:
其他好文 时间:
2014-11-13 22:40:18
阅读次数:
231
一. Kafka中的相关概念的介绍
Kafka是一个scala实现的分布式消息中间件,其中涉及到的相关概念如下:
Kafka中传递的内容称为message(消息),message 是通过topic(话题)进行分组的 topic 和message 的关系是一对多的关系我们称发布message的进程为producer ,就是说producer生成message>对然...
分类:
其他好文 时间:
2014-11-13 22:37:11
阅读次数:
353
也可以查看一下SparkWorker2上的运行情况:我们点击具体的Container查看其信息:程序运行结束后我们可以执行一下命令查看运行结果:也可通过HDFS控制台查看运行结果:可以通过Web控制的JobHistory查看历史工作记录:点击最近运行的WordCount作业进入历史作业详情:发现我们...
分类:
其他好文 时间:
2014-11-13 22:10:09
阅读次数:
193
1.SparkSpark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。效率:据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。语言:支持的语言包括java、scala、python等,此外还支持SQL查询。...
分类:
其他好文 时间:
2014-11-13 20:40:19
阅读次数:
129
在安装Scala的时候遇到以下错:Exception in thread "main" java.lang.NoClassDefFoundError: scala.tools.nsc.MainGenericRunner at gnu.java.lang.MainThread.run(libgcj.s...
分类:
其他好文 时间:
2014-11-13 20:30:07
阅读次数:
182
在本机(Windows 8)上安装spark玩一玩,Spark的Quick Start上没有指明具体步骤,自己Build好了之后把步骤记录一下。 首先,到Spark的官网上下载Spark的压缩包,然后解压缩到本地文件夹。我下的是Spark 1.1.0,目...
结束historyserver的命令如下所示: ? 第四步:验证Hadoop分布式集群 首先在hdfs文件系统上创建两个目录,创建过程如下所示: Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件,程序运行的...
分类:
其他好文 时间:
2014-11-13 13:10:19
阅读次数:
166
当我们在运行作业的过程中也可以查看Web控制台的信息:此时发现了一个作业ID,点击进入可以查看作业进一步的信息:进一步看通过Web控制台看SparkWorker1中的Container中的运行信息:刷新Web控制台:
分类:
其他好文 时间:
2014-11-12 22:54:40
阅读次数:
241
大数据“火”的有段日子了,原来打算学习hadoop……后知道spark要比hadoop更牛,故而转学spark。其原码为scala所写,为了更好的研究spark,故又开始学习scala.将自己所学记录在此,不为点赞,只为加深记忆,加深理解…不是都说写一遍等于读十遍嘛……1、基本类型: Byte...
分类:
其他好文 时间:
2014-11-12 22:40:41
阅读次数:
257