Spark学习笔记 转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/40506715 join跟union方法測试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, ...
分类:
其他好文 时间:
2017-07-22 18:27:11
阅读次数:
152
Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章..
分类:
其他好文 时间:
2017-07-07 20:18:35
阅读次数:
128
Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任 ...
分类:
其他好文 时间:
2017-07-06 13:26:57
阅读次数:
254
1、Spark MLlib LDA源代码解析 http://blog.csdn.net/sunbow0 Spark MLlib LDA 应该算是比較难理解的,当中涉及到大量的概率与统计的相关知识,并且还涉及到了Spark GraphX图计算方面的知识。要想明确当中的原理得要下一番功夫。LDA源代码解 ...
分类:
其他好文 时间:
2017-06-28 21:41:38
阅读次数:
267
7. 图的聚合操作 图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeTriplet进行处理,生成一个或者多个消息,并且将这些消息发送个Edge的一个或者两个顶点,redu ...
分类:
其他好文 时间:
2017-05-30 17:45:44
阅读次数:
235
5. 图的转换操作 图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图; (2) Graph.mapEdges():对图的边进行转换,返回一张新图。 代码: 运行结果: 6. 图的结构操作 图的结构操作主要有: (1) Graph.sub ...
分类:
其他好文 时间:
2017-05-27 22:25:49
阅读次数:
193
Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 1. POM文件 在项目的pom文件中 ...
分类:
其他好文 时间:
2017-05-22 21:27:36
阅读次数:
268
引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必要步骤。本文选自《SparkGraphX实战》。1用缓存和持久化来加速Spark我们..
分类:
其他好文 时间:
2017-04-21 21:49:39
阅读次数:
250
引言:和Hadoop一样,Spark提供了一个Map/ReduceAPI(分布式计算)和分布式存储。二者主要的不同点是,Spark在集群的内存中保存数据,而Hadoop在集群的磁盘中存储数据。本文选自《SparkGraphX实战》。大数据对一些数据科学团队来说是主要的挑战,因为在要求的可扩展性方面单机..
分类:
其他好文 时间:
2017-04-12 22:16:52
阅读次数:
171
Spark由AMPLab实验室开发,其本质是基于内存的快速迭代框架,“迭代”是机器学习最大的特点,因此非常适合做机器学习。得益于在数据科学中强大的表现,Python语言的粉丝遍布天下,如今又遇上强大的...
分类:
编程语言 时间:
2017-04-06 11:05:38
阅读次数:
247