一、建立索引 微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。 聚集索引 我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字 ...
分类:
数据库 时间:
2017-01-20 12:53:39
阅读次数:
298
之前完成了导入JMetal到自己的工程这一步。 在开始我们研究的问题之前,我们先对JMetal的源代码一个全局的认识。 JMetal很好地利用了面向对象的特性,对所有的优化问题做了高度的抽象,建议有空认真阅读源代码。 core 中的类是整个JMetal的基础类,非常重要。比如,所有的算法都继承于的A ...
分类:
Web程序 时间:
2017-01-19 21:09:16
阅读次数:
248
由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课~,这次就带着忧伤的心情系统的总结下K-means算法吧,以及它的各式各样变种~ 1 package com.data.algorithm; 2 3 import java.util.ArrayList; 4 import j ...
分类:
编程语言 时间:
2017-01-17 20:08:01
阅读次数:
207
本系列意在长期连载分享,内容上可能也会有所删改; 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) 其他:建设中… 当我们在谈论kmeans:总结 概述 通过前面阅读K-means相关论文,大致能梳理出K- ...
分类:
其他好文 时间:
2017-01-16 00:56:10
阅读次数:
148
一、概述 在本篇文章中将对四种聚类算法(K-means,K-means++,ISODATA和Kernel K-means)进行详细介绍,并利用数据集来真实地反映这四种算法之间的区别。 首先需要明确的是上述四种算法都属于"硬聚类”算法,即数据集中每一个样本都是被100%确定得分到某一个类别中。与之相对 ...
分类:
编程语言 时间:
2017-01-11 08:11:04
阅读次数:
450
聚类: 聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分层监督学习管道(每个簇训练不同的分类或者回归模型)的组件。 MLlib支持下面的几个模型: K均值(K-means) 高斯混合(Gaussian mixture) 幂迭代聚类(Power ite ...
分类:
其他好文 时间:
2017-01-09 17:56:40
阅读次数:
502
EM算法有很多的应用: 最广泛的就是GMM混合高斯模型、聚类、HMM等等. The EM Algorithm 高斯混合模型(Mixtures of Gaussians)和EM算法 EM算法 求最大似然函数估计值的一般步骤: (1)写出似然函数; (2)对似然函数取对数,并整理; (3)求导数,令导数 ...
分类:
编程语言 时间:
2017-01-08 13:09:56
阅读次数:
437
FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 1 模糊集基本知识 ...
分类:
编程语言 时间:
2017-01-07 16:32:44
阅读次数:
253
监督学习,supervisedlearning无监督学习,unsupervisedlearning分类,classificat回归,regression降维,dimensionalityreduction聚类,clustering特征向量,featurevector编译语言,compliedlanguages解释型语言,interpretedlanguages解释器,interpreter布尔值,boolean元组,tuple算术..
分类:
编程语言 时间:
2017-01-05 19:01:42
阅读次数:
321
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入。但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人。算法的具体实现(Matlab)已上传到Github。 ...
分类:
编程语言 时间:
2017-01-01 13:26:21
阅读次数:
728