一. Kafka中的相关概念的介绍
Kafka是一个scala实现的分布式消息中间件,其中涉及到的相关概念如下:
Kafka中传递的内容称为message(消息),message 是通过topic(话题)进行分组的 topic 和message 的关系是一对多的关系我们称发布message的进程为producer ,就是说producer生成message>对然...
分类:
其他好文 时间:
2014-11-13 22:37:11
阅读次数:
353
1.SparkSpark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。效率:据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。语言:支持的语言包括java、scala、python等,此外还支持SQL查询。...
分类:
其他好文 时间:
2014-11-13 20:40:19
阅读次数:
129
在安装Scala的时候遇到以下错:Exception in thread "main" java.lang.NoClassDefFoundError: scala.tools.nsc.MainGenericRunner at gnu.java.lang.MainThread.run(libgcj.s...
分类:
其他好文 时间:
2014-11-13 20:30:07
阅读次数:
182
大数据“火”的有段日子了,原来打算学习hadoop……后知道spark要比hadoop更牛,故而转学spark。其原码为scala所写,为了更好的研究spark,故又开始学习scala.将自己所学记录在此,不为点赞,只为加深记忆,加深理解…不是都说写一遍等于读十遍嘛……1、基本类型: Byte...
分类:
其他好文 时间:
2014-11-12 22:40:41
阅读次数:
257
目前,SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法,SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用,以及其中聚类算法的实现。...
分类:
编程语言 时间:
2014-11-12 21:21:04
阅读次数:
264
用到的软件:Hadoop-2.4.0、scala-2.10.4、spark-1.1.0一、预备工作配好ssh二、配置工作首先配置Hadoop 这个可以参考官方网站电接点配置http://hadoop.apache.org/docs/r2.5.1/hadoop-project-dist/hadoop-...
分类:
其他好文 时间:
2014-11-10 11:23:08
阅读次数:
183
IDE:eclipseSpark:spark-1.1.0-bin-hadoop2.4scala:2.10.4创建scala工程,编写wordcount程序如下package com.luogankun.spark.baseimport org.apache.spark.SparkConfimport...
分类:
编程语言 时间:
2014-11-09 23:29:11
阅读次数:
231