标签:改进 ber lin mat 目的 hub 使用 均方根误差 中心
检测数据分布是否存在非随机的簇结构
方法
观察聚类误差是否随着聚类类别数目的增加而单调变化(找不到一个合适的K)
霍普金斯统计量,判断数据在空间上的随机性
首先,在所有样本中随机找n个点,记为\(p_1, \cdots, p_n\) ,对其中的每一个点,都在样本空间中找到一个离它最近的点就按他们之间的距离\(x_i\),从而得到距离向量\(x_1, \cdots, x_n\) ;然后,从样本的可能取值范围随机生成n个点,记为\(q_1, \cdots, q_n\),对每个点找到他们最近的样本点计算距离,得到\(y_1, \cdots, y_n\)。霍普金斯统计量\(H\)表示为
\[H = \frac{\sum \limits_{i=1}^n y_i}{\sum \limits_{i=1}^{n} x_i + \sum \limits_{i=1}^{n} y_i} \]
如果样本随机分布,则H接近0.5。如果有聚类趋势,则随机生成的样本点距离应该远大于实际样本点距离,H的值接近1。
考察类间散度和类内散度
标签:改进 ber lin mat 目的 hub 使用 均方根误差 中心
原文地址:https://www.cnblogs.com/weilonghu/p/11922385.html