#聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:#事先不知道类别的个数与结构 据以进行分类的数据是对象之间的相似性
或差异性数据#将这些相似(相异)性数据看成是对象之间的距离远近的一种度量 将距离近的对象#归入一类
不同类之间的对象距离较远#聚类分析根据分类对象不同分为Q...
分类:
其他好文 时间:
2014-05-27 02:31:43
阅读次数:
304
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。...
分类:
其他好文 时间:
2014-05-26 03:21:30
阅读次数:
321
最近在网上查看用MapReduce实现的Kmeans算法,例子是不错,http://blog.csdn.net/jshayzf/article/details/22739063但注释太少了,而且参数太多,如果新手学习的话不太好理解。所以自己按照个人的理解写了一个简单的例子并添加了详细的注释。大致的步...
分类:
其他好文 时间:
2014-05-24 10:41:01
阅读次数:
315
摘要: 对心电信号( ECG)
这种高维的时间序列进行聚类,最重要的方面之一即进行特征提取!本研究提出利用自回归和移动平均( ARMA)模型拟合?ZK
信号,以拟合系数的欧氏距离为结构不相似测度征进行聚类!但此方法没有考虑样本数据的各维特征对聚类的不同贡献率,所以本文提出可以把首次聚类每维特征在聚类...
分类:
其他好文 时间:
2014-05-23 05:45:57
阅读次数:
196
第一部分:
学习Mahout必须要知道的资料查找技能:
学会查官方帮助文档:
解压用于安装文件(mahout-distribution-0.6.tar.gz),找到如下位置,我将该文件解压到win7的G盘mahout文件夹下,路径如下所示:
G:\mahout\mahout-distribution-0.6\docs
学会查源代码的注释文档:
方案一:用ma...
分类:
其他好文 时间:
2014-05-22 10:37:07
阅读次数:
388
伪代码: 将所有点看成一个簇当簇数目小于k时对于每一个簇 计算总误差
在给定的簇上面进行k-均值聚类(k=2) 计算将该簇一分为二之后的总误差选择使得误差最小的那个簇进行划分操作 def biKmeans(dataSet,k):
m=np.shape(dataSet)[0] clusterAssme...
分类:
其他好文 时间:
2014-05-21 21:57:08
阅读次数:
461
实际上,您可以把索引理解为一种特殊的目录。微软的SQLSERVER提供了两种索引:聚集索引(clustered
index,也称聚类索引、簇集索引)和非聚集索引(nonclustered
index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉语...
分类:
数据库 时间:
2014-05-21 19:07:30
阅读次数:
286
梦的表征、抽象的思维——《梦的解析》读后感
据我所知,人类最擅长的一件事就是抽象了。现在人工智能领域所做的工作,最常见的就是利用各种数学的模型解决一些现实生活中的问题。比如,我做过分析的一些东西:数据挖掘技术里面的聚类和分类。初始接触这些东西时的感觉就是玄之又玄,莫名其妙。当一步步接触之后,给我更....
分类:
其他好文 时间:
2014-05-21 17:36:26
阅读次数:
356