标签:自己 比较 执行 处理 分布 学习 利用 结果 机器学习
聚类的思想:将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分。
聚类的作用:
1)可以作为一个单独的过程,用于寻找数据的一个分布规律
2)作为分类的预处理过程。首先对分类数据进行聚类处理,然后在聚类结果的每一个簇上执行分类过程。
聚类的性能度量:
1)外部指标:该指标是由聚类结果与某个参考模型进行比较而获得的
Jaccard系数:它刻画了所有属于同一类的样本对同时在C和C*中隶属于同一类的样本对的概率 JC=a/(a+b+c)
FM指数:它刻画了在C中属于同一类的样本对中,同时属于C*的样本对的比例为p1;在C*中属于同一类的样本对中,同时属于C的样本对的比例为p2,FMI 就是p1和p2的几何平均 FMI=sqrt((a/(a+b))*(a/(a+c)))
2)内部指标:该指标直接由考察聚类结果而得到的,并不利用任何参考模型
标签:自己 比较 执行 处理 分布 学习 利用 结果 机器学习
原文地址:http://www.cnblogs.com/acm-jing/p/7531949.html