码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘:聚类

时间:2015-04-29 00:32:06      阅读:128      评论:0      收藏:0      [点我收藏+]

标签:

聚类分析的基于内存的数据结构:

1二模矩阵:用P个变量来表示N个对象。(行表示属性,列表示每个对象对每个属性的特征)行和列都表示不同的实体

2异度矩阵:行和列表示相同的实体;(单模矩阵)存储n个对象两两之间的近似。

区间标度变量:重量、高度。一个粗略线性标度的连续度量。

度量单位将直接影响聚类分析的结构,需将单位标准化,将原来的之转化为无单位的值。(Z-SCORE)

EUCLIDEAN(欧几里得)距离;minkowski距离

manhattan距离

对称的二元变量:用简单匹配系数评估相异度d(i,j)=(b+c)/(a+b+c+d)

非。。。。。。:Jaccard系数(不关心都为0(d)的情况)。。。。。。:d(i,j)=(b+c)/(a+b+c)

标称变量:简单匹配:d(i,j)=(p-m)/p;将m个标称状态的每个状态创建一个新的二元变量,并用非对称的二元变量来编码标称变量。

序列型变量:将序列数一一对应到连续的数字数组上,将值映射到【0,1】(24.2.30)

 

数据挖掘:聚类

标签:

原文地址:http://www.cnblogs.com/nanshanyeyu/p/4464293.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!