前面,我们已经解释并实现了部分的sklean算法,下表展示了sklean所能使用的聚类算法 发现,还有几种未写出来,例如AP(亲和传播)聚类、FeatureAgglomeration聚类,以及我们的MInIBathK-means未单独写出来,代码和前面几篇类似。在这些算法中 我们实验统一使用iris ...
分类:
其他好文 时间:
2017-08-18 22:27:52
阅读次数:
452
模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法,在是使用该算法聚类时,将数据集看作一个有隐形变量的概率模型,并实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过‘反复估计’模型参数找出最优解,同时给出相应的 ...
分类:
编程语言 时间:
2017-08-18 00:05:55
阅读次数:
421
1. Scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python n ...
分类:
编程语言 时间:
2017-08-16 14:06:01
阅读次数:
285
k聚类算法中如何选择初始化聚类中心所在的位置。 在选择聚类中心时候,如果选择初始化位置不合适,可能不能得出我们想要的局部最优解。 而是会出现一下情况: 为了解决这个问题,我们通常的做法是: 我们选取K<m个聚类中心。 然后随机选择K个训练样本的实例,之后令k个聚类中心分别与k个训练实例相等。 之后我 ...
分类:
编程语言 时间:
2017-08-16 11:24:13
阅读次数:
175
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法. 注意,不是聚类算法.所以这样的分类算法必定包含了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒惰算法.它并不是 像其它的分类算法先通过训练建立分类模型.,而是一种被动的分类 过程.它是边測试边 ...
分类:
编程语言 时间:
2017-08-13 10:11:24
阅读次数:
117
密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点。核心和它Eps范围内的邻居形成一个簇。在一个簇内如果出现多个点都是核心点,则以这些核心点为中心的簇要合并。其中要注意参数eps的设置,如果eps ...
分类:
编程语言 时间:
2017-08-12 10:21:04
阅读次数:
282
K-medodis与K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在 K-medoids算法中,我们将从当前cluster 中选取这样一个点——它到其他所有(当前cl ...
分类:
编程语言 时间:
2017-08-10 01:19:28
阅读次数:
269
算法优势:适用于绝大多数的数据类型,简洁和快速 算法劣势:需要知道准确的 k 值,并且不能处理异形簇,比如球形簇,不同尺寸及密度的簇,环形簇等。 一、分析目标 以数据集字段进行客户分群 二、流程 数据获取,毕业年份、性别、年龄、交友数量、关注的热点词(原本是一个list是否关注了这些运动或者热点词, ...
分类:
其他好文 时间:
2017-08-04 13:52:03
阅读次数:
240
聚类介绍 本章包含 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout执行一个简单的聚类实例 4.用于聚类的各种不同的距离測算方法 作为人类,我们倾向于与志同道合的人合作—“鸟的羽毛聚集在一起。我们可以发现反复的模式通过联系在我们的记忆中的我们看到的、听到的、问道的、尝到的东 西。 比如 ...
分类:
编程语言 时间:
2017-07-21 10:43:55
阅读次数:
165
转自 飞鸟各投林 4、聚类算法 前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。 这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算 ...
分类:
编程语言 时间:
2017-07-18 15:28:28
阅读次数:
177