在做FAQ系统时,用户输入一个查询之后,返回若干个打好分数的文档。对于这些文档,有些是应该输出的,有些是不应该输出的。那么应该在什么地方截断呢? 这个问题其实是一个聚类问题,在一维空间中把若干个点聚成两类。 聚类就有标准:类内距离尽量小、类间距离尽量大。 由此想到Fisher准则。 那么给定一个浮点 ...
分类:
其他好文 时间:
2018-01-24 22:28:41
阅读次数:
358
判别分析 回忆一下,我们已经学过了聚类分析(物以类聚,人以群分),主成分分析(因子的线性变换),因子分析(因子内部的联系)。今天要介绍的又是另外一种多元分析,判别分析,他是对于给定的样本 ? ,要判断他是来自哪一个总体。神奇不!!! 如何进行判别呢,主要有三种方法: 距离判别 ? 判别 ? 判别 距 ...
分类:
其他好文 时间:
2018-01-24 16:54:18
阅读次数:
171
挖掘建模根据挖掘目标和数据形式可建立:分类与预测、聚类分析、关联规则、时序模式、偏差检测等模型 1.分类与预测 分类与预测是预测问题的两种主要类型,分类主要是:预测分类标号(离散属性);预测主要是:建立连续值函数模型,预测给定自变量对应的因变量的值。 1.1 实现过程 (1)分类 分类是构造一个分类 ...
分类:
其他好文 时间:
2018-01-22 01:16:12
阅读次数:
199
一.前述 密度聚类是一种能降噪的算法。 二.相关概念 先看些抽象的概念(官方定义): 1.:对象O的是与O为中心,为半径的空间,参数,是用户指定每个对象的领域半径值。 2.MinPts(领域密度阀值):对象的的对象数量。 3.核心对象:如果对象O的对象数量至少包含MinPts个对象,则该对象是核心对 ...
分类:
其他好文 时间:
2018-01-19 20:22:49
阅读次数:
379
十三、聚类(Clustering) 13.1 无监督学习:简介 13.2 K 均值算法 13.3 优化目标 13.4 随机初始化 13.5 选择聚类数 十四、降维(Dimensionality Reduction) 14.1 动机一:数据压缩 14.2 动机二:数据可视化 14.3 主成分分析问题 ...
分类:
其他好文 时间:
2018-01-17 01:13:49
阅读次数:
553
From: http://blog.csdn.net/cyxlzzs/article/details/7416491 ...
分类:
编程语言 时间:
2018-01-17 00:13:55
阅读次数:
193
聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。 不同的簇类型 聚类旨在发现有用的对象簇,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如下的几种簇类型。 明显分离的 可以看到(a)中不同组中任意两点之间的距离都大 ...
分类:
编程语言 时间:
2018-01-15 22:36:26
阅读次数:
288
K-均值聚类 k-均值(k-means Clustering)算法是著名的划分聚类算法。由于他的简洁和效率使得它成为所有聚类算法中最为广泛使用的。 给定一个数据点集合和需要的聚类数目K(K是有用户指定的),K-均值算法根据某个距离函数反复的把数据分入K个聚类中。 聚类属于无监督学习,以往的回归、朴素 ...
分类:
其他好文 时间:
2018-01-14 17:39:36
阅读次数:
179
最近在用python做数据挖掘,在聚类的时候遇到了一个非常恶心的问题。话不多说,直接上代码: 错误如下: 网上找了好久都没找到解决方法,明明之前成功过的。于是我查看了df23数据,发现它是这样的: 与之前成功的dataframe的唯一差别就是索引!!!重要的事情说三遍!!!索引!!!索引!!!于是乎 ...
分类:
其他好文 时间:
2018-01-14 16:47:10
阅读次数:
2176
KNN与Kmeans感觉没啥联系,但是名字挺像的,就拿来一起总结一下吧。 初学者的总结。 KNN是监督学习,Kmeans是无监督学习。 KNN用于分类,Kmeans用于聚类。 先说KNN: 对于KNN,有一批已经标注好label的训练样本,将这批样本的数据转换为向量表示,然后选择度量向量距离的方式。 ...
分类:
编程语言 时间:
2018-01-10 11:31:08
阅读次数:
252