标签:
聚类分析的基于内存的数据结构:
1二模矩阵:用P个变量来表示N个对象。(行表示属性,列表示每个对象对每个属性的特征)行和列都表示不同的实体
2异度矩阵:行和列表示相同的实体;(单模矩阵)存储n个对象两两之间的近似。
区间标度变量:重量、高度。一个粗略线性标度的连续度量。
度量单位将直接影响聚类分析的结构,需将单位标准化,将原来的之转化为无单位的值。(Z-SCORE)
EUCLIDEAN(欧几里得)距离;minkowski距离
manhattan距离
对称的二元变量:用简单匹配系数评估相异度d(i,j)=(b+c)/(a+b+c+d)
非。。。。。。:Jaccard系数(不关心都为0(d)的情况)。。。。。。:d(i,j)=(b+c)/(a+b+c)
标称变量:简单匹配:d(i,j)=(p-m)/p;将m个标称状态的每个状态创建一个新的二元变量,并用非对称的二元变量来编码标称变量。
序列型变量:将序列数一一对应到连续的数字数组上,将值映射到【0,1】(24.2.30)
标签:
原文地址:http://www.cnblogs.com/nanshanyeyu/p/4464293.html