码迷,mamicode.com
首页 > 其他好文 > 详细

帮助文档-翻译-Statistics Toolbox-Exploratory Data Analysis-Cluster Analysis-Hierarchical Clustering(cluster,clusterdata)(1)

时间:2015-09-23 13:30:19      阅读:250      评论:0      收藏:0      [点我收藏+]

标签:

层次聚类


Produce nested sets of clusters

函数

 cluster  根据凝聚层次聚类树构造凝聚聚类
 clusterdata  根据样本数据构造凝聚聚类
 cophenet  cophenet相关系数
 inconsistent  inconsistent系数
 linkage  凝聚层次聚类树
 pdist  两两对象间距离的平均值
 sequentialfs  贯序特征选择
 squareform  化为距离矩阵格式

 

 

 

 

 

 

 

 

cluster


根据凝聚层次聚类树构造凝聚聚类

语法

  T = cluster(Z,‘cutoff‘,c)

  T = cluster(Z,‘cutoff‘,c,‘depth‘,d)

  T = cluster(Z,‘cutoff‘,c,‘criterion‘,criterion)

  T = cluster(Z,‘maxclust‘,n)

描述

T = cluster(Z,‘cutoff‘,c)从凝聚层次聚类树Z构造聚类,其中,Z由linkage函数生成。Z是一个m-1行3列的矩阵,其中m是原始数据中的观测值个数。c是将Z切成聚类的阈值。如果一个节点及它的所有子节点都有小于c的inconsistent值,那么就形成一个聚类。节点上或其下的所有叶子节点被归并成一个聚类。t是一个包含每个观测值分配的m维向量。

如果c是一个向量,T为一个聚类分配矩阵。其中,每一个cutoff值在矩阵中对应一列聚类分配。 

T = cluster(Z,‘cutoff‘,c,‘depth‘,d)通过查找每个节点下d层求inconsistent值。默认层数为2。

T = cluster(Z,‘cutoff‘,c,‘criterion‘,criterion)利用制定的标准形成聚类,其中,criterion为‘inconsistent‘(默认)或‘distance‘。‘distance‘标准用合并成为一个节点的两个子节点间的距离来度量节点的高度。如果一个节点上及其下的所有叶子节点的高度小于c,则它们合并成一个聚类。

T = cluster(Z,‘maxclust‘,n)利用‘distance‘标准构造一个n聚类的最大值。cluster找到一个最小的高度,在这个高度上水平切割树有n个或更小的聚类数。

如果n是一个向量,T是一个矩阵,且每一个极大值对应矩阵中的一列。

例子

将安德森鸢尾花卉数据集与物种种类相比较

  load fisheriris

  d = pdist(meas);

  Z = linkage(d);

  c = cluster(Z,‘maxclust‘,3:5);

  crosstab(c(:,1),species)

  ans =

       0     0     2

       0    50    48

     50     0     0

  crosstab(c(:,2),species)

  ans =

       0     0     1

       0    50    47

       0     0     2

     50     0     0

  crosstab(c(:,3),species)

  ans =

       0     4     0

       0    46    47

       0     0     1

       0     0     2

     50     0     0

clusterdata


数据的凝聚聚类

语法

  T = clusterdata(X,cutoff)

  T = clusterdata(X,Name,Value)

描述

T = clusterdata(X,cutoff)

T = clusterdata(X,Name,Value)有着一个或多个名称,值参数对另外特殊选项设置的聚类。

输入参数

X             行数大于等于2的矩阵。每一行代表一个观测值,每一列代表一个类别或维度。
cuttoff 当0<cutoff<2时,clusterdata形成聚类,使得所有的inconsistent值都大于cutoff。当cutoff是一个大于等于2的整数时,clusterdata将cutoff理解成一个由linkage生成的聚类的,使切割能保留在聚类树中的最大值。

 

 

 

 

 

 

 

 

名称-数值 参数对

指定以逗号分隔的名称,值可选参数对。Name是参数的名称,并且Value是相应的取值。Name外必须加引号(‘‘)。你可以以任意顺序指定一些名称值参数对如Name1,Value1,...,NameN,ValueN。

输入参数

‘criterion‘                ‘inconsistent‘或‘distance‘
‘cutoff‘ inconsistent或距离度量的截断值是一个正的标量。当0<cutoff<2时,clusterdata形成聚类,使得所有的inconsistent值都大于cutoff。当cutoff是一个大于等于2的整数时,clusterdata将cutoff理解成一个由linkage生成的聚类的,使切割能保留在聚类树中的最大值。
‘depth‘ 深度用于计算inconsistent值,是一个正的整数。
‘distance‘

任何pdist认可的距离度量名称(‘minkowski‘选项后跟着指数值p):

度量 描述
‘euclidean‘ 欧几里德距离(默认值)
‘seuclidean‘ 标准化后的欧几里德距离。X行间的每个坐标的差值都通过除以标准差S=nanstd(X)的相应值来调整大小。如果要为S另外指定一个值,用D=pdist(X,‘seuclidean‘,S)。
‘cityblock‘ 城市街区度量。
‘minkowski‘ 闵可夫斯基距离。默认指数为2。若要另外知道一个指数,用D=pdist(X,‘minkowski‘,P),其中P为指数值,为一个正标量值。
‘chebychev‘ 契比雪夫距离(坐标差值)。
‘mahalanobis‘ 马氏距离,作为nancov计算以X的样本协方差。如果要用另一个协方差,用D=(X,‘mahalanobis‘,C),其中C是一个正定对称矩阵。
‘cosine‘ 1减去两个点(看作向量)间的夹角的cos值
‘correlation‘ 1减去两个点(看作向量)间的相关系数
‘spearman‘ 1减去两个观测值(看作值的序列)间的斯皮尔曼秩相关系数
‘hamming‘ 汉明距离,不同值坐标的比例。
用户距离函数

由@指定的距离函数:

D = pdist(X,@disfunctional)

一个距离函数必须形式如下:

d2 = distfun(XI,XJ)

作为参数的,一个是1行n列的向量XI,对应X的一行,和一个m2行n列的矩阵XJ,对应X的多行。distfun必须接受XJ矩阵行数任意。distfun必须返回一个距离为d2的m2行1维的向量,其中第k个元素是XI和XJ(k,:)的距离。

 

‘linkage‘

linkage函数允许的任何linkage方法:

‘average‘

‘centroid‘

‘complete‘

‘median‘

‘single‘

‘ward‘

‘weighted‘

‘maxclust‘ 最大聚类数目,为正整数。
‘savememory‘

一个字符串,为‘on‘或‘off‘。当可用的时,‘on‘设置使得cluserdata能不计算距离矩阵构造聚类。savememory当如下情况可用:

linkage是‘centroid‘,‘median‘或‘ward‘

distance是‘euclidean‘(默认)

当savememory是‘on‘时,linkage运行时间和维度的数目(X的列数)成比例。当savememory是‘off‘时,linkage内存的需求和N2成比例,其中N是观测值的数目。所有选择最好(耗时最少)的savememory设置取决于问题的维度,观测值的个数,或可用的内存。默认的savememory设置是最优设置的一个粗略近似。

默认:为‘on‘当X的列数少于或等于20,或计算机没有足够内存来存储距离矩阵时;反之则为‘off‘。

帮助文档-翻译-Statistics Toolbox-Exploratory Data Analysis-Cluster Analysis-Hierarchical Clustering(cluster,clusterdata)(1)

标签:

原文地址:http://www.cnblogs.com/yult/p/4830712.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!