标签:迭代 span limit mit 度量 tis its 预处理 n+1
基本思想:通过迭代寻找K个簇的一种划分方法,使得聚类结果对应的代价函数最小。特别地,代价函数可以定义为各个样本距离所属聚类中心的误差平方和
\[J(c, \mu) = \sum \limits_{i=1}{M}||x_i - \mu_{c_i}||^2?\]
数据预处理,如归一化、离群点处理等
随机选取K个簇中心,记为\(\mu_1^{(0)}, \cdots, u_k^{(0)}\)
定义代价函数:\(\begin{aligned} J(c, \mu) = \mathop{\min}_{\mu}\mathop{\min}_{c}\sum \limits_{i=1}{M}||x_i - \mu_{c_i}||^2 \end{aligned}\)
令\(t = 0, 1, \cdots\)为迭代步数,直到\(J\)收敛
对于每一个样本\(x_i\),将其分配到最近的簇
\[\begin{aligned} c_i^{t} = \mathop{\arg \min}_k ||x_i - \mu_k^{(t)}||^2 \end{aligned}?\]
对于每一个类簇k,重新计算该类簇的中心
\[\begin{aligned} \mu_k^{t} = \mathop{\arg \min}_{\mu} \sum \limits_{i:c_i^{(t)=k}} ||x_i - \mu||^2 \end{aligned}\]
K均值算法在迭代时,假设当前\(J\)没有达到最小值,那么首先固定类簇中心,调整每个样例所属类别来使\(J\)减小。然后固定样例所属类别,调整类簇中心使\(J\)减少。
转换为概率模型,通过EM算法的收敛性得到证明
标签:迭代 span limit mit 度量 tis its 预处理 n+1
原文地址:https://www.cnblogs.com/weilonghu/p/11922369.html