标签:
我们来谈谈最经典的推荐算法协同过滤吧,下面是思维导图拙作一副
协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。
1.1曼哈顿距离
就是各维度距离相加,在二维空间(x轴y轴)就是 |x1-x2|+|y1-y2|
1.2 欧式距离
就是两点间直线距离
1.3皮尔逊系数
因为每个人的评分习惯不一样,所以单纯的计算距离是不准确的
1.4 余弦定理
两向量之间夹角,夹角越小越相识
其中曼哈顿和欧式适用于密集的数据,余弦定理适用于稀疏的数据。
2.方法
2.1 K邻域
选出与事物i最相似的k个事物,相似的物品的评分乘以权重求和得到预测的事物i的评分
2.2 SlopOne
该算法最大的优势就是简单,因此易于实现。基本思想是通过物品的偏差值来预测评分(公式见导图)
3.CF
3.1 UserCF
相似的用户干了什么就推荐什么。是基于数据的过滤,在扩展方面随着用户量的增大会带来性能上的降低。常应用于新闻推荐
3.2 ItemCF
为用户推荐相似的用品。是基于模型的过滤。常用于商品推荐。
4.显式与隐式评级
4.1 显式评级
例如评分、赞踩等行为显式的表现出用户的评级。但也有许多问题:
1.说谎的行为:比如朋友圈给朋友孩子投票,淘宝五星好评返两元等行为
2.懒:有动作后不评级,比如购买后不进行评价。大部分用户都这样
3.不更新:开始是商品感觉良好,一段时间后坏了,不进行更新,留下了差商品的好评
4.2隐式评级
隐式的动作,如点击进入,收听,购买等行为。
可能出现的问题,举个例子,别人用你的账户买了个商品,而你并不会在未来购买同类商品。
标签:
原文地址:http://blog.csdn.net/mtchy/article/details/51352363