spark:Cross-platform real-time collaboration client optimized for business and organizations.Spark is a full-features instant messaging (IM) and group...
分类:
其他好文 时间:
2014-09-11 13:43:01
阅读次数:
209
Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了One stack rule them all。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:
店铺分类,根据销售额对店铺分类货品调拨,根据货品的销售数量和店铺之间的距离进行货品调拨
前者将使用sparkSQL+MLlib的聚类算法,后者将使用s...
分类:
数据库 时间:
2014-09-11 09:39:41
阅读次数:
292
sparkSpark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把计算过程传递给数据。这和Hadoopmap/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输...
分类:
其他好文 时间:
2014-09-10 22:26:41
阅读次数:
191
一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模.....
分类:
其他好文 时间:
2014-09-10 19:12:50
阅读次数:
311
spark自带的example中就有streaming结合kafka使用的案例:$SPARK_HOME/examples/src/main/scala/org/apache/spark/examples/streaming/KafkaWordCount.scala使用方法参见代码描述:Usage: ...
分类:
其他好文 时间:
2014-09-10 17:29:50
阅读次数:
219
使用版本:kafka_2.10-0.8.1.1安装:tar -zxvf kafka_2.10-0.8.1.1.tgz -C ~/app/添加环境变量:.bash_profileexport KAFKA_HOME=/home/spark/app/kafka_2.10-0.8.1.1export PAT...
分类:
其他好文 时间:
2014-09-10 17:18:30
阅读次数:
231
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第2期互动问答分享】Q1:新手学习spark如何入手才好?先学习Scala的内容,强烈推荐《快学Scala》;然后按照我们免费发布的“云计算分布式大数据Spark实战高手之路(共3本书)”循序渐进的学习即可,其中“云计算分布..
分类:
其他好文 时间:
2014-09-10 14:20:40
阅读次数:
211
决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第3期互动问答分享】Q1:groupbykey是排好序的吗?分组排序怎么实现?groupByKey在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集,所以是没有排序的;要想分组排序,首先要使用groupByKey完成分..
分类:
其他好文 时间:
2014-09-10 14:19:51
阅读次数:
259
启动并查看集群的状况 第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述: 启动之后在Master这台机器上使用jps命令,可以看到如下进程信息: 在Slave1 和Slave2上使用jps会看到如下进程信息:...
分类:
其他好文 时间:
2014-09-10 11:00:41
阅读次数:
345
启动并查看集群的状况
第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述:
启动之后在Master这台机器上使用jps命令,可以看到如下进程信息:
在Slave1 和Slave2上使用jps会看到如下进程信息:
第二步:启动Spark集群
在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin...
分类:
其他好文 时间:
2014-09-10 10:55:20
阅读次数:
225