码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习K-Means

时间:2019-06-21 21:07:03      阅读:239      评论:0      收藏:0      [点我收藏+]

标签:不用   dom   最大   rand   数据分布   属性   数据   随机   聚类   

1.K-Means聚类算法属于无监督学习算法。

2.原理:先随机选择K个质心,根据样本到质心的距离将样本分配到最近的簇中,然后根据簇中的样本更新质心,再次计算距离重新分配簇,直到质心不再发生变化,迭代结束。

3.簇内平方和Inertia:采用欧几里得距离,则一个簇中所有样本点到质心的距离的平方和。追求能够让簇内平方和最小化的质心。

4.用sklearn实现K-Means:from sklearn.cluster import KMeans #导入包

            cluster = KMeans(n.clusters = k).fit(X) #进行聚类,实例化

5.重要参数

  n_clusters:簇的个数,超参数,需要人为设置。

  init:每个随机数种子运行下的次数,默认k-meas++(使得质心彼此远离),random随机,n维数组(n_clusters,n_features)。

  n_init:使用不同质心随机初始化的种子来运行k-means算法的次数,默认10次。

  max_iter:最大迭代次数,默认300。

  tol:容差,两次迭代间Inertia下降的量,默认10e-4。

6.重要属性

  cluster.labels_ 查看聚类后簇的类别

  cluster.cluster_centers_ 查看质心

  cluster.inertia_ 查看距离平方和

7.模型评估指标:轮廓系数。范围在(-1,1)之间,越大越好。

8.不用Inertia作评估指标的原因:a.Inertia不是有界的

                b.易受特征数目影响

                c.受超参数k的影响,k越大,Inertia减小

                d.对数据分布有假设,假设数据满足凸分布

机器学习K-Means

标签:不用   dom   最大   rand   数据分布   属性   数据   随机   聚类   

原文地址:https://www.cnblogs.com/yujingwei/p/11066783.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!