K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
整数划分(三)
时间限制:1000 ms | 内存限制:65535 KB
难度:5
描述
整数划分是一个经典的问题。请写一个程序,完成以下要求。
输入每组输入是两个整数n和k。(1
输出对于输入的 n,k;
第一行: 将n划分成若干正整数之和的划分数。
第二行: 将n划分成k个正整数之和的划分数。
第三行: 将n划分成最大数...
分类:
其他好文 时间:
2014-05-24 18:20:36
阅读次数:
242
//====================================================决策树的构造:构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用。为了找到决定性特征,我们必须使用某种度量来评估每个特征。完成评估之后,找到决定性特征,使用该特...
分类:
其他好文 时间:
2014-05-21 18:05:53
阅读次数:
343
(转载请注明出处:http://blog.csdn.net/buptgshengod)
1.背景
上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢?就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树,并且赋予他们不同的...
分类:
编程语言 时间:
2014-05-07 06:48:25
阅读次数:
569