码迷,mamicode.com
首页 > 其他好文 > 详细

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

时间:2019-01-03 16:38:37      阅读:404      评论:0      收藏:0      [点我收藏+]

标签:图片   com   ...   根据   src   url   相同   方向   二维   

之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson‘s r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)之间有什么关联呢?

 

首先,我们来看一下什么是余弦相似度。说到余弦相似度,就要用到余弦定理(Law of Cosine)

技术分享图片

假设两个向量技术分享图片技术分享图片之间的夹角为技术分享图片技术分享图片技术分享图片向量的长度分别是技术分享图片技术分享图片技术分享图片对应的边长为向量技术分享图片减去向量技术分享图片的长度,也就是技术分享图片

根据余弦定理:技术分享图片

对上式进行推导:技术分享图片

这样最终可以得到:技术分享图片

 

技术分享图片就是余弦相似度,取值在-1和1之间。如果两个向量方向相反,那么技术分享图片等于-1;如果两个向量方向相同,那么技术分享图片等于1。可以看出,两个向量之间的夹角越小,其夹角余弦越大(越相似)。因此余弦相似度可以用来度量两个变量之间的相似程度。

 

上面针对的是二维空间,技术分享图片(x1,y1),技术分享图片(x2,y2)两个向量之间的夹角余弦为:技术分享图片

 

扩展到n维空间,技术分享图片(x1,x2,...,xn),技术分享图片(y1,y2,...,yn)两个向量之间的夹角余弦就是:技术分享图片

 

如果对上式数据做标准化处理:技术分享图片

 

夹角余弦公式就会变为:技术分享图片

 

对比皮尔逊相关系数的公式:技术分享图片

 

这两者不是完全一样吗?

 

因此,我们得到结论:皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦。

 

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

标签:图片   com   ...   根据   src   url   相同   方向   二维   

原文地址:https://www.cnblogs.com/HuZihu/p/10188595.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!