(图片from http://www.cnblogs.com/zhangchaoyang/articles/2624882.html)
单高斯分布
如果特征x是一维(只考虑点的x坐标)的,高斯分布是:(from这篇博客)
如果特征是二维(x坐标和y坐标,意义可以是身高和体重)的,聚类的效果应该是:
在上面两张图中,我们用EM—GMM算法做聚类,用的是单个高斯函数描述一个咧别。
如用一维高斯描述了男生和女生的身高分布。
高斯混合分布
但是如果统计的这些身高同时有荷兰人(高)和刚果人(矮),这个单高斯模型会出什么问题?
显然用一个高斯分布来描述男女身高是不行了,这样就需要混合高斯模型,如:
【π表示各种人(荷兰男人、荷兰女人、刚果男人、刚果女人)所占的比例】
现在有一批男人身高数据(荷兰男人+刚果男人),我们可以参照这篇博客的EM方法得到
同理,可以得到女人身高的双高斯分布。
这样,用混合双高斯分布来判断 “荷兰美眉” 的性别就对了。【即将“荷兰美眉”的特征向量X带入Gm和Gf求概率】
原文地址:http://blog.csdn.net/hzq20081121107/article/details/40896033