聚类的思想:将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分。 聚类的作用: 1)可以作为一个单独的过程,用于寻找数据的一个分布规律 2)作为分类的预处理过程。首先对分类数据进行聚类处理,然后 ...
分类:
编程语言 时间:
2017-09-16 18:48:30
阅读次数:
353
具体实现如下,使用python+结巴分词+scikit-learn实现一个简单的文本聚类得到会议室数据,直接从DBA线上数据库得到预约数据,如下所示,共有3列,分别是会议ID,会议标题和会议时间 停用词文件stopwords.txt ...
分类:
编程语言 时间:
2017-09-15 13:57:04
阅读次数:
1778
汉语中,一个模糊得不能再模糊的动词是“搞”。这样搞,那样搞,具体的搞,抽象的搞,搞票搞笑搞关系,搞吃搞喝搞职称,搞装修,搞女人,搞年货,搞摄影,几乎所有的动作都可称“搞”。 英语也有类似的动词,它们释义跨度极大, 毫无关联,难以聚类,种种动作无所不包,风马牛不相及的意义都会出现在它的词条解释下,俨然 ...
分类:
其他好文 时间:
2017-09-15 02:00:20
阅读次数:
175
凝聚层次聚类: 所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中, ...
分类:
编程语言 时间:
2017-09-11 21:26:22
阅读次数:
207
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 基本K均值:选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。每次循环中,每个点被指派到最近的质心,指派到同一个质心的点集构成一个簇。然后 ...
分类:
编程语言 时间:
2017-09-11 21:08:09
阅读次数:
159
第十章 利用k-均值聚类算法对未标注的数据进行分组 一.导语 聚类算法可以看做是一种无监督的分类方法,之所以这么说的原因是它和分类方法的结果相同,区别它的类别没有预先的定义。簇识别是聚类算法中经常使用的一个概念,使用这个概念是为了对聚类的结果进行定义。 聚类算法几乎可以用于所有的对象,并且簇内的对象 ...
分类:
编程语言 时间:
2017-09-10 17:41:18
阅读次数:
299
KNN和K-Means的区别 KNN K-Means 2.监督学习 3.喂给它的数据集是带label的数据,已经是完全正确的数据 2.非监督学习 3.喂给它的数据集是无label的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序 ...
分类:
其他好文 时间:
2017-09-10 15:49:27
阅读次数:
162
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。 这篇文章介绍一种称为K-均值的聚类算法,之所以称为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 聚类分析视图将相似对象归入同一簇,将不相似对象归到不同簇。 下面用Python简单演示该算法实现的原理: 函数 ...
分类:
编程语言 时间:
2017-09-10 10:07:03
阅读次数:
182
一、不同的output 1、二分类 2、多分类 3、回归问题 4、structured learn: 从一个句子 -> 句子每个 词的词性。 输出是一个结构化的东西。 例子:蛋白质数据 -> 蛋白质结构 演讲语音 -> 演讲parse tree 二、不同label的类型 1、监督 2、非监督: 聚类 ...
分类:
其他好文 时间:
2017-09-09 11:54:02
阅读次数:
188
空间数据操作框架 Apache SIS Apache SIS 是一个空间的框架,可以更好地搜索,数据聚类,归档,或任何其他相关的空间坐标表示的需要。 kvwmap kvwmap是一个采用PHP开发的WebGIS客户端。运用了UMN-Mapserver技术,MySQL和PostgreSQL/PostG ...
分类:
其他好文 时间:
2017-09-08 01:16:01
阅读次数:
1626