聚类 聚类任务 在无监督学习(密度估计、异常检测等)中,训练样本的标记信息是未知的(即不人为指定),旨在发现数据之间的内在联系和规律,为进一步的数据分析提供基础。 此类学习任务中研究最多、应用最广的是聚类。 聚类将数据集中的样本划分为若干个通常是不相交(有的时候会相交)的子集(簇,也叫类),即将样本 ...
分类:
其他好文 时间:
2017-07-26 17:36:00
阅读次数:
197
R语言数据挖掘实战系列(5)——挖掘建模一、分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。1.实现过程(1)分类分类是构造一个分类模型,输入样本的属性值,输出对应..
分类:
编程语言 时间:
2017-07-23 22:32:09
阅读次数:
189
在无监督学习中,我们很少或者根本不知道结果是什么样子。我们可以根据数据中变量之间的关系对数据进行聚类,无监督学习没有基于预测结果的反馈。 例子: 聚类:收集1000000个不同的基因,并找到一种方法,自动将这些基因分成不同的变量组,如寿命、位置、角色等。非聚类:“鸡尾酒会算法”,让你在混乱的环境中找 ...
分类:
其他好文 时间:
2017-07-22 22:25:45
阅读次数:
112
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之中的一个。它把n个对象依据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程能够用下图表示: 如图所看到的。数据样本用圆点表示,每一个簇的中心点用叉叉表示。(a)刚開 ...
分类:
编程语言 时间:
2017-07-22 21:08:00
阅读次数:
315
windows下python科学计算库的下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/(由于C运行库的问题,scipy在linux下可以用pip安装,而windows下不行) matpoltlib:绘图 numpy:矩阵运算 scipy:科学计算,高阶 ...
分类:
编程语言 时间:
2017-07-21 20:44:07
阅读次数:
176
聚类介绍 本章包含 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout执行一个简单的聚类实例 4.用于聚类的各种不同的距离測算方法 作为人类,我们倾向于与志同道合的人合作—“鸟的羽毛聚集在一起。我们可以发现反复的模式通过联系在我们的记忆中的我们看到的、听到的、问道的、尝到的东 西。 比如 ...
分类:
编程语言 时间:
2017-07-21 10:43:55
阅读次数:
165
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集 ...
分类:
数据库 时间:
2017-07-20 14:11:05
阅读次数:
186
1-参数估计与矩阵运算基础 2-凸优化 3- 广义线性回归和对偶优化 4-牛顿、拟牛顿、梯度下降、随机梯度下降(SGD) 5-熵、最大熵模型MaxEnt、改进的迭代尺度法IIS 6-聚类(k-means、层次聚类、谱聚类等) 7-K近邻、决策树、随机森林(random decision forest ...
分类:
其他好文 时间:
2017-07-18 15:35:12
阅读次数:
162
转自 飞鸟各投林 4、聚类算法 前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。 这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算 ...
分类:
编程语言 时间:
2017-07-18 15:28:28
阅读次数:
177
在机器学习中,经常要用到距离和相似性的计算公式,我么要常计算个体之间的差异大小,继而评价个人之间的差异性和相似性,最常见的就是数据分析中的相关分析,数据挖掘中的分类和聚类算法。如利用k-means进行聚类时,判断个体所属的类别,要利用距离计算公式计算个体到簇心的距离,如利用KNN进行分类时,计算个体 ...
分类:
编程语言 时间:
2017-07-17 22:03:18
阅读次数:
558