码迷,mamicode.com
首页 > 其他好文 > 详细

几种用户相似度计算方法及其优缺点

时间:2015-09-02 19:23:22      阅读:683      评论:0      收藏:0      [点我收藏+]

标签:

进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

    这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
    

    余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

    皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

    在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

    在垂直搜索引擎中,用


几种用户相似度计算方法及其优缺点

标签:

原文地址:http://my.oschina.net/u/347386/blog/500806

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!