关系计算问题描述 二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友的好友四种类型。 如果要为全站亿级用户根据二度关系和四种桥梁类型推荐桥梁权重最高 ... ...
分类:
其他好文 时间:
2017-01-17 12:42:26
阅读次数:
1289
分布式系统实践 1. 基于Spark GraphX实现微博二度关系推荐 http://dwz.cn/51OflC 摘要: 基于图的关系挖掘和计算是互联网算法中非常常见的一种计算模型. 比如经典的pagerank, 微博微信的好友推荐等等. 本文从架构和算法两个方面, 非常详细的介绍了微博基于Grap ...
分类:
其他好文 时间:
2017-01-14 13:37:23
阅读次数:
310
SparkGraphx图计算案例实战之aggregateMessages求社交网络中的最大年纪追求者和平均年纪!SparkGraphx提供了mapReduceTriplets来对图进行聚合计算,但是1.2以后不再推荐使用,源代码如下:@deprecated("useaggregateMessages","1.2.0")
defmapReduceTriplets[A:ClassTag](
mapF..
分类:
其他好文 时间:
2016-11-17 21:25:37
阅读次数:
451
Spark图处理GraphX学习笔记!一、什么是GraphX?Graphx利用了Spark这样了一个并行处理框架来实现了图上的一些可并行化执行的算法。算法是否能够并行化与Spark本身无关算法并行化与否的本身,需要通过数学来证明已经证明的可并行化算法,利用Spark来实现会是一个错的选择,因为G..
分类:
其他好文 时间:
2016-11-14 10:02:15
阅读次数:
1268
问题导读1.GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图?2.PageRank算法在图中发挥什么作用?3.三角形计数算法的作用是什么?Spark中文手册-编程指南Spark之一个快速的例子Spark之基本概念Spark之基本概念Spark之基本概念(2)Spark之基本概念(3)... ...
分类:
其他好文 时间:
2016-11-08 19:23:26
阅读次数:
504
由于本人文字表达能力不足,还是多多以代码形式表述,首先展示测试代码,然后解释: 下面重点研究Pregel,为了方便,自己重新定义了一个Pregel0 def mapReduceTriplets[A]( map: EdgeTriplet[VD, ED] => Iterator[(VertexId, A ...
分类:
其他好文 时间:
2016-10-27 22:48:44
阅读次数:
549
/** * 自定义收集VertexId的neighborIds * @author TongXueQiang */def collectNeighborIds[T,U](edgeDirection:EdgeDirection,graph:Graph[T,U])(implicit m:scala.re ...
分类:
其他好文 时间:
2016-10-26 19:53:50
阅读次数:
743
Spark 2.0Graphx学习笔记
概述、图计算应用场景、Spark中图的建立及图的基本操作
利用顶点和边RDD建立一个简单的属性图、读取文件建立图
三种视图及操作、Spark GraphX中的图...
分类:
其他好文 时间:
2016-09-17 02:04:19
阅读次数:
3157
1. 整体架构 GraphX 的整体架构(如图 1所示)可以分为三部分。 图 1 GraphX 架构 存储和原语层: Graph 类是图计算的核心类。内部含有 VertexRDD、 EdgeRDD 和RDD[EdgeTriplet] 引用。 GraphImpl 是 Graph 类的子类,实现了图操作 ...
分类:
Web程序 时间:
2016-08-01 17:17:17
阅读次数:
504