基于spark Mllib(ML)聚类实战

时间：2016-08-08 19:28:44 阅读：252 评论：0 收藏：0 [点我收藏+]

标签：

写在前面的话：由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型，这里k-means用的是ML模块做测试，LDA,GaussianMixture 则用的是MLlib模块

数据资料下载网站，大力推荐！！！

http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

1.Kmeans

大致思想就是把数据分为多个堆，每个堆就是一类。每个堆都有一个聚类中心（学习的结果就是获得这k个聚类中心），这个中心就是这个类中所有数据的均值，而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心，分类的过程就是将未知数据对这k个聚类中心进行比较的过程。

spark kmeans 算法调用数据演练技术分享

技术分享

2.GMM

另外一种比较流行的聚类方法 Gaussian Mixture Model

大致思想就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个

Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。

spark GMM 算法调用数据测试：

技术分享

3.LDA

技术分享

最后总结一下，用GMM的优点是投影后样本点不是得到一个确定的分类标记，而是得到每个类的概率，这是一个重要信息。GMM每一步迭代的计算量比较大，大于

k-means。GMM的求解办法基于EM算法，因此有可能陷入局部极值，这和初始值的选取十分相关了。GMM不仅可以用在聚类上，也可以用在概率密度估计上。

标签：

原文地址：http://www.cnblogs.com/zhw-080/p/5750482.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行