Matlab提供了两种方法进行聚类分析。
一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;
另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类...
分类:
其他好文 时间:
2015-01-20 12:04:46
阅读次数:
501
主成份分析历史:
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。
通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有...
分类:
编程语言 时间:
2014-12-15 10:29:54
阅读次数:
290
原文:《BI那点儿事》数据挖掘各类算法——准确性验证准确性验证示例1:——基于三国志11数据库
数据准备:
挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:
依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归...
分类:
编程语言 时间:
2014-12-02 10:32:29
阅读次数:
222
原文:《BI那点儿事》Microsoft 顺序分析和聚类分析算法Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相...
分类:
编程语言 时间:
2014-12-02 10:13:58
阅读次数:
201
原文:《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类...
分类:
编程语言 时间:
2014-12-02 10:12:47
阅读次数:
115
准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19...
分类:
编程语言 时间:
2014-12-01 20:43:18
阅读次数:
196
什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分。聚类分析的基本过程是怎样的?选择聚类变量...
分类:
编程语言 时间:
2014-11-25 23:00:37
阅读次数:
324
K-means算法
一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method)、层次方法(hierarchical
methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based
methods).k-means算法属于划分方法中的一种。 K-me...
分类:
编程语言 时间:
2014-11-05 13:05:07
阅读次数:
307
将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合,在类簇中所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异。聚类除了可以用于数据分割(data segmentation),也可以用于离群点检测(outlier
detection),所谓的离群点指的是与“普通”点相对应的“异常”点,而这些“异常”点往往值的注意。
很多人在学习聚类之初,容易将...
分类:
其他好文 时间:
2014-11-05 13:04:06
阅读次数:
252
前面介绍了k-means算法,并列举了该算法的缺点。而K中心点算法(K-medoids)正好能解决k-means算法中的 “噪声”敏感这个问题。
如何解决的呢?
首先,我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维度。当聚类的样本点中有“噪声”(离群点)时,在计算类簇质点的过程中会受到...
分类:
编程语言 时间:
2014-11-05 13:02:45
阅读次数:
204