码迷,mamicode.com
首页 >  
搜索关键字:聚类    ( 1791个结果
matlab做聚类分析
说明:如果是要用matlab做kmeans聚类分析,直接使用函数kmeans即可。使用方法:kmeans(输入矩阵,分类个数k)。转载一: MATLAB提供了两种方法进行聚类分析: 1、利用 clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据....
分类:其他好文   时间:2015-04-30 10:13:13    阅读次数:206
数据挖掘:聚类
聚类分析的基于内存的数据结构:1二模矩阵:用P个变量来表示N个对象。(行表示属性,列表示每个对象对每个属性的特征)行和列都表示不同的实体2异度矩阵:行和列表示相同的实体;(单模矩阵)存储n个对象两两之间的近似。区间标度变量:重量、高度。一个粗略线性标度的连续度量。度量单位将直接影响聚类分析的结构,需...
分类:其他好文   时间:2015-04-29 00:32:06    阅读次数:128
mahout 形式转换
对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceF...
分类:其他好文   时间:2015-04-26 21:00:05    阅读次数:154
【SQL Server 2008商务智能BI】数据挖掘导论
数据挖掘到底是什么呢? 显然数据挖掘不是变魔术,数据挖掘是 使用复杂的数学算法,使我们能够运用计算机强大的计算能力对大量细节数据进行筛查、梳理,找出一些有意义的信息,发现数据中的模式、相关性和聚类。同时它也让我们摆脱了手工进行这种数字运算的劳累工作。 而我们为什么又要去了解它呢? 关系数据库系统擅长记录日常的数据,积累了大量的数据。 而多维数据系统通过聚合对数据进行汇总,但由于...
分类:数据库   时间:2015-04-25 22:47:32    阅读次数:180
Clustering by fast search and find of density peaks代码详解
发表在2014年Science上的聚类方法Clustering by fast search and find of density peaks,不在这赘述介绍了,其matlab代码详细注释下面给出,如果想看该方法的详细解释说明,推荐在阅读原文的基础上,参考这位博主的博文 http://blog.csdn.net/itplus/article/details/38926837 本文版权...
分类:其他好文   时间:2015-04-21 09:37:43    阅读次数:375
数据挖掘算法总结
一、关联规则挖掘 1、 Apriori算法 (1)Apriori算法原理 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规...
分类:编程语言   时间:2015-04-21 00:26:32    阅读次数:376
【Hibernate】Hibernate的聚类查询、分组查询、排序与时间之差
在Hibernate中的HQL语句其实能够基本能够实现SQL语句所做的事情,正如jQuery至于javascript一样。虽然HQL语句是对类的查询,但是HQL在实行聚类查询、分组查询、排序与时间之差等查询,也无须把查询结果查询出来,再通过对List的处理才得到结果。 比如有一张如下的Testtable表: 要像《【Mysql】求出离最近相差X天的项,sql语句关于日期的比对》(点击打...
分类:编程语言   时间:2015-04-20 13:16:41    阅读次数:198
【Mysql】利用group by附带having进行聚类查询
聚类查询所针对的对象是表的其中一列,譬如如下的testtable表,要查出username这一列中,各个项所出现的次数,则用到聚类查询 显然,聚类查询之后,得到的结果必须与id,number这两列半点关系都没有。因此,也就是正如上门,所说,聚类查询所针对的对象是表的其中一列。 聚类查询往往配合count(*),sum(*),avg(*)等聚类语句,用来对表进行统计。由于查询的字段往往是...
分类:数据库   时间:2015-04-17 13:59:17    阅读次数:287
机器学习实战ByMatlab(三)K-means算法
K-means算法属于无监督学习聚类算法,其计算步骤还是挺简单的,思想也挺容易理解,而且还可以在思想中体会到EM算法的思想。K-means 算法的优缺点: 1.优点:容易实现 2.缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据以往的回归算法、朴素贝叶斯、SVM等都是有类别标签y的,因此属于有监督学习,而K-means聚类算法只有x,没有y在聚类问题中,我们的...
分类:编程语言   时间:2015-04-17 13:54:08    阅读次数:162
机器学习实战ByMatlab(四)二分K-means算法
前面我们在是实现K-means算法的时候,提到了它本身存在的缺陷: 1.可能收敛到局部最小值 2.在大规模数据集上收敛较慢 对于上一篇博文最后说的,当陷入局部最小值的时候,处理方法就是多运行几次K-means算法,然后选择畸变函数J较小的作为最佳聚类结果。这样的说法显然不能让我们接受,我们追求的应该是一次就能给出接近最优的聚类结果。其实K-means的缺点的根本原因就是:对K个质心的初始选...
分类:编程语言   时间:2015-04-17 13:52:12    阅读次数:357
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!