python大战机器学习——聚类和EM算法

时间：2017-09-16 18:48:30 阅读：353 评论：0 收藏：0 [点我收藏+]

　　聚类的思想：将数据集划分为若干个不想交的子集（称为一个簇cluster），每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定，聚类算法仅仅会进行划分。

　　聚类的作用：

　　　　1）可以作为一个单独的过程，用于寻找数据的一个分布规律

　　　　2）作为分类的预处理过程。首先对分类数据进行聚类处理，然后在聚类结果的每一个簇上执行分类过程。

　　聚类的性能度量：

　　　　1）外部指标：该指标是由聚类结果与某个参考模型进行比较而获得的

　　　　　　Jaccard系数：它刻画了所有属于同一类的样本对同时在C和C*中隶属于同一类的样本对的概率 JC=a/(a+b+c)

　　　　　　FM指数：它刻画了在C中属于同一类的样本对中，同时属于C*的样本对的比例为p1；在C*中属于同一类的样本对中，同时属于C的样本对的比例为p2，FMI 就是p1和p2的几何平均 FMI=sqrt((a/(a+b))*(a/(a+c)))

　　　　2）内部指标：该指标直接由考察聚类结果而得到的，并不利用任何参考模型

原文地址：http://www.cnblogs.com/acm-jing/p/7531949.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行