一、前述 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从 ...
分类:
其他好文 时间:
2018-04-06 18:45:40
阅读次数:
221
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me, come on! 第一步:首先,我们从网上获取图片自动下载到自己电脑的文件内,如从网址,下载到F ...
分类:
编程语言 时间:
2018-01-08 20:14:13
阅读次数:
199
from numpy import * class cluster_node: def __init__(self,vec,left=None,right=None,distance=0.0,id=None,count=1): self.left=left self.right=right self... ...
分类:
编程语言 时间:
2018-01-08 19:41:10
阅读次数:
246
昨天: (1)找到了一个Spyder,运行出了网上的一段代码。 (2)收到了老师的数据,目前的方向是CNN和hierarchical clustering(层次聚类) (3)在网上的视频看到了代码,应该看看并尝试运行。 今天: (1)运行:左边 Tensorflow(现已支持Windows) (2) ...
分类:
其他好文 时间:
2018-01-06 00:33:52
阅读次数:
172
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 ...
分类:
其他好文 时间:
2017-10-13 21:24:52
阅读次数:
217
凝聚法分层聚类中有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和) 其他的好像 ...
分类:
其他好文 时间:
2017-10-13 20:04:55
阅读次数:
1730
模式识别作业,虽然没选这课,不过有同学拜托,正好我也想试试这课作业的难度(感觉模式识别是为数不多的不太水而且比较有用的课,没错我就是针对信息论和组合数学233) ...
分类:
其他好文 时间:
2017-09-30 11:40:22
阅读次数:
170
一、层次聚类 1、层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离 ...
分类:
其他好文 时间:
2017-09-17 20:10:48
阅读次数:
191
凝聚层次聚类: 所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中, ...
分类:
编程语言 时间:
2017-09-11 21:26:22
阅读次数:
207
学习利用sklearn的几个聚类方法: 一.几种聚类方法 1.高斯混合聚类(mixture of gaussians) 2.k均值聚类(kmeans) 3.密度聚类,均值漂移(mean shift) 4.层次聚类或连接聚类(ward最小离差平方和)二.评估方法 1.完整性:值:0-1,同一个类别所有 ...
分类:
其他好文 时间:
2017-08-15 21:10:33
阅读次数:
516