码迷,mamicode.com
首页 > 其他好文 > 详细

data mining notes

时间:2015-02-05 18:38:12      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:data mining

两个对象i和j之间的相异性可以根据不匹配率来计算:

d(i,j) = (p-m)/p;

其中,m是匹配的数目(即i和j取值相同状态的属性数), 而p是刻画对象的属性总数。

相似性

d(i,j)=1-d(i,j);

 

对于对称的二元属性,每个状态都同样重要。基于对称二元属性的相异性称做对称的二元相异性。

d(i,j)=(r+s)/(q+r+s+t);

非对称的二元属性,两个状态不是同等重要的,非对称的二元相异性,负匹配数t被认为是不重要的,

d(i,j)=(r+s)/(q+r+s);

数值属性的相异性:euclidean distance, manhattan distance,minkoski distance;

euclidean distance :d(i,j)=sqrt(power((x1-y1),2) + power((x2-y2),2)+power((xn-yn),2));

manhattan distance:d(i,j)=abs(x1-y1)+abs(x2-y2)+abs(xn-yn);

upper distance :produce the max minus value between each dimension of the object

 

 

本文出自 “welcome” 博客,请务必保留此出处http://friendsforever.blog.51cto.com/3916357/1612048

data mining notes

标签:data mining

原文地址:http://friendsforever.blog.51cto.com/3916357/1612048

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!