码迷,mamicode.com
首页 > 其他好文 > 详细

几种常见距离总结

时间:2016-05-12 16:48:23      阅读:1617      评论:0      收藏:0      [点我收藏+]

标签:

何为距离?

距离是数据挖掘领域中一个非常重要的概念,表示了样本之间的相似程度。距离的选择对于样本的区分结果至关重要。距离越接近,样本越相似。分到一类的可能性越大。

有哪些距离?

常见的距离包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦距离、马氏距离、杰卡德相似系数、皮尔逊相关系数、汉明距等。根据距离的提出方式和计算方法,可将其分成几何距离、统计距离和信息论距离三大类。

几何距离

几何距离主要考虑两个方面,一是向量的长度差异,二是向量的夹角差异。

欧氏距离

欧氏距离是最常见的距离之一,来源于几何空间下两点距离。
两个样本间的欧氏距离定义如下

d(x,y)=k(xk?yk)2???????????

其中,xkyk分别为向量x和y的第k位的值。

曼哈顿距离

曼哈顿距离由闵可夫斯基提出,又名出租车距离。顾名思义,该距离表示出租车在两点间需要行驶的距离。
两个样本的曼哈顿距离定义如下

d(x,y)=k|xk?yk|

切比雪夫距离

切比雪夫距离表示了在某一方向的最大差距。比如国际象棋中的王从(x1,y1)走到(x2,y2),一共需要max{|x1?x2|,|y1?y2|}步。
两个样本的切比雪夫距离定义如下

d(x,y)=maxk|xk?yk|

切比雪夫距的另一种表示如下
d(x,y)=limn(k|xk?yk|n)1n

证明如下:
d(x,y)?limn(k?(maxk|xk?yk|n))1n=maxk|xk?yk|

d(x,y)?limn(maxk|xk?yk|n)1n=maxk|xk?yk|

闵可夫斯基距离

闵可夫斯基距离是一组距离定义,其表达方式如下

d(x,y)=(k|xk?yk|p)1p

p=1时,表示曼哈顿距离
p=2时,表示欧几里得距离
p时,表示切比雪夫距离

闵式距离是将向量的距离和方向综合分析,得到差距。对于距离和方向的加权由幂指数p来调整。
闵式距离计算方便,表达简单,缺点是把向量的每个维度等同对待,无法良好的区分出维度的差异。在此之上,提出了标准化闵式距离。

标准化闵式距离

标准化闵式距离实将样本标准化处理后再进行距离求解,表达方法如下:

d(x,y)=(k|xk?yksk|p)1p

其中sk为第k方向上的方差。事实上,标准化闵式距离就是对每个方向进行了加权。

余弦距离

余弦距离采用了余弦的思想,在K维空间下计算了两向量的夹角。夹角越大,两向量方向越相离。余弦距离是数据分析中最常用的距离计算方法,其表达如下

d(x,y)=cos(x,y)=x?y||x||?||y||

余弦距隐去了向量长度差异,只在向量方向上进行分析。对于定性而非定量的分析上具有良好效果。

统计距离

统计距离主要在样本的数值特性上进行分析,判断向量的统计学差异。

马氏距离

马氏距离应用了统计学方法,引入协方差进行计算,其表达如下

d(x,y)=(x?y)?S?1?(x?y)T??????????????????

马氏距离考虑了样本与整体的关系,两个样本的比较,在不同的整体中,得到的马氏距不同。但马氏距对样本和整体有要求,协方差的逆矩阵可能不存在。
马氏距考虑了向量的距离差和整体-样本关系,在方向差异上使用协方差进行表述,然而敏感度高。

杰卡德相似系数

杰卡德相似系数表示两个集合的相似程度,其表达如下

J(x,y)=|AB||AB|

杰卡德距离表达为
d(x,y)=1?J(x,y)

皮尔逊相关系数

皮尔逊相关系数是非常重要的统计系数之一,表示了样本的相关程度。其表达如下

ρ(x,y)=Cov(x,y)D(x)????D(y)????

相关系数为1,则样本正相关,为-1,则负相关
皮尔逊距离表达为
d(x,y)=1?ρ(x,y)

皮尔逊相关系数本质上是两个样本在统计学意义上的余弦。

信息论距离

信息论距离主要在编码上进行考虑,在向量数值之下进行分析。

 汉明距

汉明距离是信息论中的一个概念,表示两端二进制信息中不同位的个数。举例来说,1011和1101的汉明距为2。当样本可以被编码为一段二进制信息时,则可以用汉明距进行衡量。

几种常见距离总结

标签:

原文地址:http://blog.csdn.net/atlas_kaguya/article/details/51361929

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!