标签:sam strong 聚类算法 模型 dir bbs 结果 多项式 col
GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD上的论文《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》的数学模型。
GSDMM主要用于短文本聚类,短文本聚类是将大量的短文本(例如微博、评论等)根据计算某种相似度进行聚集,最终划分到几个类中的过程。GSDMM主要具备以下优点:
1. 可以自动推断聚类的个数;
2. 可以在完备性和一致性之间保持平衡;
3.可以很好的处理稀疏、高纬度的短文本;
4. 较其它的聚类算法,在性能上表现更为突出
《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》中应用狄利克雷多项式混合模型(DMM)于短文本聚类中,可以很好地处理短文本的稀疏和高纬度的问题,并且可以得到每个类的代表词汇。再对DMM采用收缩型吉布斯采样算法,对于短文本聚类可以得到很好的表现。同时,GSDMM可以很好地平衡聚类结果的完备性和一致性从而自动推断类的个数且可以快速地收敛。
方法
全文用Movie Group Process(MGP) 来类比,电影讨论课程的教授要将学生分为不同的组,并且希望在同一个组的学生看过同一部电影,因此他们有更多的东西可以讨论。教授要求学生在几分钟之内写下他们看过的电影。(由于时间限制,写下的电影列表不会太长,更多可能是他们近期观看或最喜欢的电影)。教授需要找到一个方法将学生根据其电影列表分为不同的组。相同的组的学生具有相似的电影列表,不同的组的学生的电影列表不相同。
标签:sam strong 聚类算法 模型 dir bbs 结果 多项式 col
原文地址:http://www.cnblogs.com/xz824/p/7827773.html