标签:
MLlib支持k-means聚类,一种最常用的聚类方法,将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种,叫做kmeansII。MLlib的实现包括以下参数:
当数据作为流到达时,簇应该被动态估计。MLlib提供了支持流的k-means聚类,使用参数控制估计延迟(或忽略)。算法使用小批量k-means更新规则,针对每一批数据,将他们分配给离他们最近的簇,计算新的簇中心, 然后用
\( c_{t+1}=\frac{c_t n_t \alpha + x_t m_t}{n_t \alpha + m_t} \)
\( n_{t+1} = n_t + m_t \)
更新每个簇。
标签:
原文地址:http://www.cnblogs.com/lemonqin/p/4218950.html