开源的推荐系统

时间：2015-09-19 21:01:00 阅读：1154 评论：0 收藏：0 [点我收藏+]

标签：

我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了个人的一些简单点评（未必全面准确），

这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助

陈运文

SVDFeature

由上海交大的同学开发的，C++语言，代码质量很高。去年我们参加KDD竞赛时用过，非常好用，而且出自咱们国人之手，所以置顶推荐！

项目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，可以用相对较少的内存实现较大规模的单机版矩阵分解运算。

另外含有Logistic regression的model，可以很方便的用来进行ensemble运算

Crab

项目地址：

http://geektell.com/story/crab-recommender-systems-in-python/

系统的Tutorial可以看这里：

http://muricoca.github.io/crab/

Crab是基于Python开发的开源推荐软件，其中实现有item和user的协同过滤。据说更多算法还在开发中，

Crab的python代码看上去很清晰明了，适合一读

CofiRank

C++开发的 Collaborative Filtering算法的开源推荐系统，但似乎2009年后作者就没有更新了，

CofiRank依赖boost库，联编会比较麻烦。不是特别推荐

项目地址：

http://www.cofirank.org/

EasyRec

Java开发的推荐系统，感觉更像一个完整的推荐产品，包括了数据录入模块、管理模块、推荐挖掘、离线分析等，整个系统比较完备。

项目地址：

http://easyrec.org/

GraphLab

项目地址：

http://graphlab.org/

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特点是对迭代的并行计算处理能力强（这方面是hadoop的弱项），

由于功能独到，GraphLab在业界名声很响

用GraphLab来进行大数据量的random walk或graph-based的推荐算法非常有效。

Graphlab虽然名气比较响亮（CMU开发），但是对一般数据量的应用来说可能还用不上

Lenskit

http://lenskit.grouplens.org/

这个Java开发的开源推荐系统，来自美国的明尼苏达大学，也是推荐领域知名的测试数据集Movielens的作者，

他们的推荐系统团队，在学术圈内的影响力很大，很多新的学术思想会放到这里

Mahout

网址

http://mahout.apache.org/

Mahout知名度很高，是Apache基金资助的重要项目，在国内流传很广，并已经有一些中文相关书籍了。注意Mahout是一个分布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其他常见的机器学习算法的分布式实现方案。

另外Mahout的作者之一Sean Owen基于Mahout开发了一个试验性质的推荐系统，称为Myrrix, 可以看这里：

http://myrrix.com/quick-start/

MyMediaLite

http://mymedialite.net/index.html

基于.NET框架的C#开发（也有Java版本），作者基本来自德国、英国等欧洲的一些高校。

除了提供了常见场景的推荐算法，MyMediaLite也有Social Matrix Factorization这样独特的功能

尽管是.Net框架，但也提供了Python、Ruby等脚本语言的调用API

MyMediaLite的作者之一Lars Schmidt在2012年KDD会议上专门介绍过他们系统的一些情况，可惜由于.Net开发框架日渐式微，MyMediaLite对Windows NT Server的系统吸引力大些，LAMP网站用得很少

LibFM

项目网址：

http://www.libfm.org/

作者是德国Konstanz University的Steffen Rendle，去年KDD Cup竞赛上我们的老对手，他用LibFM同时玩转Track1和Track2两个子竞赛单元，都取得了很好的成绩，说明LibFM是非常管用的利器（虽然在Track1上被我们打败了，hiahia）

顾名思义，LibFM是专门用于矩阵分解的利器，尤其是其中实现了MCMC（Markov Chain Monte Carlo）优化算法，比常见的SGD（随即梯度下降）优化方法精度要高（当然也会慢一些）

顺便八卦下，去年KDD会议上和Steffen当面聊过，他很腼腆而且喜欢偷笑，呵呵挺可爱。

LibMF

项目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是两个不同的开源项目。这个LibMF的作者是大名鼎鼎的台湾国立大学，他们在机器学习领域享有盛名，近年连续多届KDD Cup竞赛上均获得优异成绩，并曾连续多年获得冠军。台湾大学的风格非常务实，业界常用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都非常高

LibMF在矩阵分解的并行化方面作出了很好的贡献，针对SDG优化方法在并行计算中存在的locking problem和memory discontinuity问题，提出了一种矩阵分解的高效算法，根据计算节点的个数来划分评分矩阵block，并分配计算节点。系统介绍可以见这篇论文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.