数据挖掘-聚类分析

时间：2015-10-06 18:05:13 阅读：178 评论：0 收藏：0 [点我收藏+]

标签：

聚类分析是一种非监督的学习，分类是一种监督学习，就是用已经知道的类别的训练数据得到一个分类的模型，所以聚类与分类的主要区别在于是否需要预先定义好类别，也就是说聚类分析只是依靠数据本身来确定数据之间的关系的，所以聚类分析有很大的优越性特别是适合处理大量的原始的数据

聚类分析方法的性能指标：1.可扩展性，2，自适应性，3，鲁棒性4，可解释性

聚类使用的数据类是：数据矩阵相异度矩阵

规范化是在中心化的基础上再做变换，确保变量的变化范围相等，常用的规范化方法有最大值归一化，总和规范化，均值标准差规范化以及极差规范化

聚类分析方法包括基于划分的方法基于分层的方法基于密度的方法基于网格的方法基于模型的方法

连续变量的距离需要满足自反性对称性正定性以及三角不等式等条件，矩阵D是一个对称矩阵，且对角线上的元素是0.

相似系数应该满足自反性对称性归一化满足三角不等式

基于分割的聚类方法：k-均值算法 k-中心值算法

基于层次的聚了方法采用的是距离作为衡量聚类的标准距离的度量的方法有：最小距离最大距离均值等

分为自底向上和自顶向下的方法：其中自底向上是将每个对象作为一个簇，通过不断的合并这些基本的簇形成较大的簇，知道满足条件为止

自顶向下是首先将所有的对象看陈是一个簇中的对象，然后根据一定的准则不断的进行分割这个簇形成更小的簇，从而完成聚类

基于密度的聚类主要饿算法有DBSCAN OPTICS DENCLUE CLIQUE

基于网格的聚类主要得算法有STING WaveCluster CLIQUE

基于模型的聚类主要有神经网络方法和统计学方法

标签：

原文地址：http://www.cnblogs.com/fxd-address/p/4857338.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行