1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题 * 设置检查点 val sc = new SparkContext(conf) sc.setCheckpointDir(" ...
分类:
编程语言 时间:
2020-02-28 18:55:18
阅读次数:
60
我们的问题是这样的m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。 推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是 ...
分类:
编程语言 时间:
2018-01-13 15:35:19
阅读次数:
200
本文主要针对广告检索领域的查询重写应用,依据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法。关于SimRank++算法的背景和原理请參看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。 SimRank++的矩阵形式的计算公式为: 算法主要过程例如以 ...
分类:
编程语言 时间:
2017-06-30 15:38:59
阅读次数:
136
在协同过滤推荐算法总结中,我们讲到了用图模型做协同过滤的方法,包括SimRank系列算法和马尔科夫链系列算法。现在我们就对SimRank算法在推荐系统的应用做一个总结。 1. SimRank推荐算法的图论基础 SimRank是基于图论的,如果用于推荐算法,则它假设用户和物品在空间中形成了一张图。而这 ...
分类:
编程语言 时间:
2017-05-03 17:24:52
阅读次数:
227
详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity?一、简介
目前主要有两大类相似性度量方法:
(1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等;
(2) 基于链接(对象间的...
分类:
其他好文 时间:
2016-07-19 10:32:59
阅读次数:
483
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。
SimRank++的矩阵形式的计算公式为:
算法主要步骤如下:
Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;
Step2:...
分类:
其他好文 时间:
2014-05-01 08:21:53
阅读次数:
527