1 ? ?Table of Contents spark 总揽 spark core spark sql spark mllib spark graphx spark streaming 2 ? ?spark 总揽 spark官网:https://spark.apache.org/ spark 资料集中营,覆盖各种视频,论文,博客,...
分类:
其他好文 时间:
2015-09-14 21:20:00
阅读次数:
163
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,...
分类:
其他好文 时间:
2015-09-14 09:23:27
阅读次数:
1259
/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....
分类:
其他好文 时间:
2015-09-09 18:57:40
阅读次数:
113
Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、Spark...
分类:
其他好文 时间:
2015-08-07 13:35:39
阅读次数:
171
背景简单分析一下GraphX是怎么为图数据建模和存储的。入口可以看GraphLoader的函数,def edgeListFile(
sc: SparkContext,
path: String,
canonicalOrientation: Boolean = false,
numEdgePartitions: Int = -1,
edgeS...
分类:
其他好文 时间:
2015-08-05 13:00:15
阅读次数:
152
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。...
分类:
其他好文 时间:
2015-08-05 12:55:28
阅读次数:
250
背景本文给出了一个简单的计算图中每个点的N度关系点集合的算法,也就是N跳关系。之前通过官方文档学习和理解了一下GraphX的计算接口。N度关系实现思路:
1. 准备好边数据集,即”1 3”, “4, 1” 这样的点关系。使用GraphLoader 的接口load成Graph
2. 初始化每个Vertice的属性为空Map
3. 使用aggregateMessages把VerticeID和...
分类:
其他好文 时间:
2015-08-04 13:35:02
阅读次数:
208
详细内容参照Spark官网:http://spark.apache.org/
Spark相关项目:
Spark SQL 、Spark Streaming 、Machine Learning 、GraphX
1、Spark SQL :用Spark编写的混合SQL查询,能在分布式数据集中查询结构化数据,使得复杂分析算法的查询更容易。
2、Spark Streaming :Spark Strea...
分类:
其他好文 时间:
2015-07-14 11:35:22
阅读次数:
257