码迷,mamicode.com
首页 > 其他好文 > 详细

余弦相似度

时间:2015-06-18 18:37:06      阅读:195      评论:0      收藏:0      [点我收藏+]

标签:

定义

余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。

 

概念

向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:

 技术分享

如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

 

计算

对于二维空间,根据向量点积公式可得:
技术分享

假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
技术分享

设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:

技术分享

例如计算N维向量,展开之后就是:
技术分享

 

应用
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本的相似度情况。

 

余弦相似度

标签:

原文地址:http://www.cnblogs.com/relucent/p/4586236.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!