前段时间需要对一些客服对话记录做聚类分析,于是抽时间测试了一下常见聚类算法的效果。之前了解过的聚类算法大多在sklearn中都有现成的实现可以直接用,不过optics算法倒没找到,于是就看着论文做了个简易版的。下面是算法源码,关于原理请参考原始论文: C. Ding, X. He, and H. D ...
分类:
编程语言 时间:
2018-10-15 23:22:31
阅读次数:
635
一. 引子——高维空间与西瓜 这学期选课有一门“网络数据挖掘”,原来特别担心与本学期选的一门“模式识别与数据挖掘”在一定程度上相重复,不过还好,这个老师讲课不是照本宣科,讲得更多的是个人的理解还有从业经验。 今天讲得挺有意思的一点是,在讲到聚类的时候,老师有些嗤之以鼻,说在高维空间内,聚类算法可能并 ...
分类:
其他好文 时间:
2018-10-12 23:55:52
阅读次数:
224
基本概念:(Density-Based Spatial Clustering of Applications with Noise)基于密度的噪声应用空间聚类 核心对象:若某个点的密度达到算法设定的阈值则其为核心点。(即r 邻域内点的数量不小于minPoints) ?-邻域的距离阈值:设定的半径r ...
分类:
数据库 时间:
2018-10-11 15:47:01
阅读次数:
336
Python,聚类分析算法介绍,层次聚类算法、Kmeans聚类算法,sklearn模块中聚类方法、scipy模块中聚类方法介绍 ...
分类:
编程语言 时间:
2018-10-01 10:34:40
阅读次数:
473
刘建平:DBSCAN密度聚类算法 https://www.cnblogs.com/pinard/p/6208966.html API 的说明: https://www.jianshu.com/p/b004861105f4 ...
分类:
数据库 时间:
2018-09-27 16:58:30
阅读次数:
109
k-means聚类算法python实现 K-means聚类算法 算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。 1.首先我们 ...
分类:
编程语言 时间:
2018-09-13 01:19:55
阅读次数:
229
R中cluster中包含多种聚类算法,下面通过某个数据集,进行三种聚类算法的评估 ...
分类:
其他好文 时间:
2018-09-09 15:08:18
阅读次数:
145
关于常见的聚类算法的详解可以参见 "K均值聚类和高斯混合聚类" 一文。 本文内容仅适于机器学习初学者 可能刚接触机器学习过后都知道,聚类属于无监督学习的范畴,而分类问题是有监督学习里常见的任务,二者都有个划分类别的过程,为什么聚类方法不能用于分类呢? 我们做分类任务的时候首先需要一批已标注好的样本, ...
分类:
编程语言 时间:
2018-08-28 20:22:26
阅读次数:
189
https://www.jianshu.com/p/162c9ec713cf 摘要: 让我们走进K-Means算法的“前世今生”以及和它有关的十个有趣的应用案例。 K-means算法具有悠久的历史,并且也是最常用的聚类算法之一。K-means算法实施起来非常简单,因此,它非常适用于机器学习新手爱好者 ...
分类:
编程语言 时间:
2018-08-24 10:55:42
阅读次数:
154
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的 ...
分类:
其他好文 时间:
2018-08-23 13:07:58
阅读次数:
520