码迷,mamicode.com
首页 > 编程语言 > 详细

聚类算法的评估

时间:2019-11-24 15:44:50      阅读:91      评论:0      收藏:0      [点我收藏+]

标签:改进   ber   lin   mat   目的   hub   使用   均方根误差   中心   

  • 这里只讨论没有外部标签的情况,有标签自然好判别

数据簇的特点

  • 以中心定义的数据簇:通常球形分布,集合中的数据到中心的距离相比到其他簇中心的距离更近
  • 以密度定义的数据簇:当数据簇不规则或互相盘绕,并且有噪声和离群点时,常常使用
  • 以连通定义的数据簇:具有连通关系
  • 以概念定义的数据簇:同一集合内数据具有某一相同性质

聚类可行性

  • 检测数据分布是否存在非随机的簇结构

  • 方法

    • 观察聚类误差是否随着聚类类别数目的增加而单调变化(找不到一个合适的K)

    • 霍普金斯统计量,判断数据在空间上的随机性

      • 首先,在所有样本中随机找n个点,记为\(p_1, \cdots, p_n\) ,对其中的每一个点,都在样本空间中找到一个离它最近的点就按他们之间的距离\(x_i\),从而得到距离向量\(x_1, \cdots, x_n\) ;然后,从样本的可能取值范围随机生成n个点,记为\(q_1, \cdots, q_n\),对每个点找到他们最近的样本点计算距离,得到\(y_1, \cdots, y_n\)。霍普金斯统计量\(H\)表示为

        \[H = \frac{\sum \limits_{i=1}^n y_i}{\sum \limits_{i=1}^{n} x_i + \sum \limits_{i=1}^{n} y_i} \]

      • 如果样本随机分布,则H接近0.5。如果有聚类趋势,则随机生成的样本点距离应该远大于实际样本点距离,H的值接近1。

判定数据簇类

  • 手肘法和Gap Statistic法
  • 用于评估的最佳数据簇类可能与程序输出的簇类是不同的

测定聚类质量

考察类间散度和类内散度

  • 轮廓系数
  • 均方根误差:衡量聚类的同质性,即紧凑程度(类间散度)
  • R方:衡量聚类的差异度(类间散度)
  • 改进的Hubert\(\Gamma\)统计:通过数据对的不一致性来评估聚类的差异

聚类算法的评估

标签:改进   ber   lin   mat   目的   hub   使用   均方根误差   中心   

原文地址:https://www.cnblogs.com/weilonghu/p/11922385.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!