码迷,mamicode.com
首页 > 其他好文 > 详细

协同过滤浅谈

时间:2016-05-12 21:22:20      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:

我们来谈谈最经典的推荐算法协同过滤吧,下面是思维导图拙作一副

技术分享


协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。

与传统文本过滤相比,协同过滤有下列优点:
(1)能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;
(2)能够基于一些复杂的,难以表达的概念(信息质量、品位)进行过滤;
(3)推荐的新颖性。
正因为如此,协同过滤在商业应用上也取得了不错的成绩。Amazon,CDNow,MovieFinder,都采用了协同过滤的技术来提高服务质量。
缺点是:
(1)用户对商品的评价非常稀疏,这样基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题);
(2)随着用户和商品的增多,系统的性能会越来越低;
(3)如果从来没有用户对某一商品加以评价,则这个商品就不可能被推荐(即最初评价问题)。
因此,现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。
1.相似性

1.1曼哈顿距离

就是各维度距离相加,在二维空间(x轴y轴)就是   |x1-x2|+|y1-y2|

1.2 欧式距离

就是两点间直线距离

1.3皮尔逊系数

因为每个人的评分习惯不一样,所以单纯的计算距离是不准确的

1.4 余弦定理

两向量之间夹角,夹角越小越相识

其中曼哈顿和欧式适用于密集的数据,余弦定理适用于稀疏的数据。

2.方法

2.1 K邻域

选出与事物i最相似的k个事物,相似的物品的评分乘以权重求和得到预测的事物i的评分

2.2 SlopOne

该算法最大的优势就是简单,因此易于实现。基本思想是通过物品的偏差值来预测评分(公式见导图)

3.CF

3.1 UserCF

相似的用户干了什么就推荐什么。是基于数据的过滤,在扩展方面随着用户量的增大会带来性能上的降低。常应用于新闻推荐

3.2 ItemCF

为用户推荐相似的用品。是基于模型的过滤。常用于商品推荐。

4.显式与隐式评级

4.1 显式评级

例如评分、赞踩等行为显式的表现出用户的评级。但也有许多问题:

1.说谎的行为:比如朋友圈给朋友孩子投票,淘宝五星好评返两元等行为

2.懒:有动作后不评级,比如购买后不进行评价。大部分用户都这样

3.不更新:开始是商品感觉良好,一段时间后坏了,不进行更新,留下了差商品的好评

4.2隐式评级

隐式的动作,如点击进入,收听,购买等行为。

可能出现的问题,举个例子,别人用你的账户买了个商品,而你并不会在未来购买同类商品。

协同过滤浅谈

标签:

原文地址:http://blog.csdn.net/mtchy/article/details/51352363

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!