标签:data mining
两个对象i和j之间的相异性可以根据不匹配率来计算:
d(i,j) = (p-m)/p;
其中,m是匹配的数目(即i和j取值相同状态的属性数), 而p是刻画对象的属性总数。
相似性
d(i,j)=1-d(i,j);
对于对称的二元属性,每个状态都同样重要。基于对称二元属性的相异性称做对称的二元相异性。
d(i,j)=(r+s)/(q+r+s+t);
非对称的二元属性,两个状态不是同等重要的,非对称的二元相异性,负匹配数t被认为是不重要的,
d(i,j)=(r+s)/(q+r+s);
数值属性的相异性:euclidean distance, manhattan distance,minkoski distance;
euclidean distance :d(i,j)=sqrt(power((x1-y1),2) + power((x2-y2),2)+power((xn-yn),2));
manhattan distance:d(i,j)=abs(x1-y1)+abs(x2-y2)+abs(xn-yn);
upper distance :produce the max minus value between each dimension of the object
本文出自 “welcome” 博客,请务必保留此出处http://friendsforever.blog.51cto.com/3916357/1612048
标签:data mining
原文地址:http://friendsforever.blog.51cto.com/3916357/1612048