码迷,mamicode.com
首页 > 其他好文 > 详细

【转】关于Mahalanobis距离的笔记

时间:2014-12-09 15:13:33      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   io   ar   color   os   sp   on   

Mahalanobis距离是用来度量一个点P和一个分布D之间的距离,它是衡量点P与分布D的均值之间存在多少个标准差的一个多维泛化版本。
如果P就位于分布D的均值处,则该距离为0;该距离随着P的偏离均值开始逐步增大。

由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为bubuko.com,布布扣协方差矩阵bubuko.com,布布扣的多变量向量bubuko.com,布布扣,其马氏距离为

bubuko.com,布布扣

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为bubuko.com,布布扣的随机变量bubuko.com,布布扣bubuko.com,布布扣的差异程度:

bubuko.com,布布扣

如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离

bubuko.com,布布扣

其中bubuko.com,布布扣bubuko.com,布布扣标准差


 

mahalanobis距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。
换句话说,主成分分析就是把椭球分布的样本改变到另一个空间里,使其成为球状分布。而mahalanobis距离就是在样本呈球状分布的空间里面所求得的Euclidean距离。
当然,上面的解释只是对椭球分布而言,对一般分布,只能消除分布的二阶相关性,而不能消除高阶相关性。

bubuko.com,布布扣
bubuko.com,布布扣
bubuko.com,布布扣
bubuko.com,布布扣
bubuko.com,布布扣

bubuko.com,布布扣


 

【转】关于Mahalanobis距离的笔记

标签:style   blog   http   io   ar   color   os   sp   on   

原文地址:http://www.cnblogs.com/chaosimple/p/4153178.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!