'''
本章主要介绍密度聚类:
簇:密度相连的点的最大集合
优点:
1、能够将具有高密度的区域划分为簇
2、能发现任意形状的簇
基本概念:
对象的ε-邻域:给定对象在半径ε内的区域
核心对象:一个对象的邻域中至少包含最小数目x个对象的
直接密度可达:给定对象集合D,如果p是在q的邻域内,q又是核心对象,则表明从核心对象q直接密度可达对象p
密度可达(可以认为是基于传递性):存在对象链p1,p2,...
分类:
其他好文 时间:
2016-07-10 19:03:58
阅读次数:
257
Case Studies: Finding Similar DocumentsLearning Outcomes: By the end of this course, you will be able to:(通过本章的学习,你将掌握) -Create a document retrieval s ...
分类:
系统相关 时间:
2016-07-10 15:15:55
阅读次数:
204
k-means 算法 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 k-means 算法的工作过程说明如下 ...
分类:
编程语言 时间:
2016-07-09 22:13:42
阅读次数:
210
Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 ...
分类:
其他好文 时间:
2016-07-08 21:31:18
阅读次数:
611
实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉 ...
分类:
其他好文 时间:
2016-07-08 15:12:45
阅读次数:
164
原题采用Kmeans方法对西瓜数据集进行聚类。我花了一些时间居然没找到西瓜数据集4.0在哪里,于是直接采用sklearn给的例子来分析一遍,更能说明Kmeans的效果。 运行文本结果: 图片结果: ...
分类:
其他好文 时间:
2016-07-06 23:21:56
阅读次数:
345
首先,简单介绍下k-means聚类:效果简单有效,易于map—reduce化 算法思路:1、选择k个点作为原始的质心(k如何定) 2、将每个点指派到最近的质心,形成k个簇 3、重新计算每个簇的质心(x,y坐标的均值)--[新的质心不一定为样本点哦] 4、迭代2、3步直到簇心收敛于某一个阈值 优缺点: ...
分类:
其他好文 时间:
2016-07-06 20:19:22
阅读次数:
263
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 ...
分类:
其他好文 时间:
2016-07-04 23:26:24
阅读次数:
214
在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量。其中,距离度量的性质:非负性,自反性,对称性和三角不等式。
本文的目的就是对常用的相似性度量作一个总结。
本文目录:
1.欧氏距离
2.曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5.标准化欧氏距离
6.马氏距离
7.余弦相似度
...
分类:
其他好文 时间:
2016-07-03 20:05:42
阅读次数:
785
算法的思想是初始选取M个种子点,将周围点的特征和种子点特征进行距离的测定,距离最小的点和该种子点归为一类。则可以分为M个类别,计算这些类别特征的质心作为新的种子点,再次分类,如此迭代n次后的结果便是聚类分割的结果。
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了...
分类:
其他好文 时间:
2016-07-03 19:46:31
阅读次数:
170