更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm
介绍
BIRCH算法本身上属于一种聚类算法,不过他克服了一些K-Means算法的缺点,比如说这个k的确定,因为这个算法事先本身就没有设定有多少个聚类。他是通过CF-Tree,(ClusterFeature-Tree)聚类特征树实现的。BIRCH的一个重要考虑是最小化I/O,通过扫描...
分类:
编程语言 时间:
2015-02-06 09:40:23
阅读次数:
123
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Con...
分类:
Windows程序 时间:
2015-02-04 23:30:43
阅读次数:
1071
kmeans是经典的聚类算法,newlisp提供了函数,同样分为train和query两个阶段。kmeans的算法目的是将训练数据划分成k个类,按照一定的算法动态的选择k个中心点。下面是个例子,我添加了中文注释:(set 'data '(
(6.57 4.96 11.91 0.9)
(2.29 4.18 1.06 0.8)
(8.63 2.51 8.11 0.7)
(1.85 1.89 0....
分类:
编程语言 时间:
2015-02-03 19:36:20
阅读次数:
184
聚类分析(Cluster Analysis)一、聚类分析与判别分析?判别分析:已知分类情况,将未知个体归入正确类别 ?聚类分析:分类情况未知,对数据结构进行分类 二、Q型和R型 聚类Q型是对样本进行分类处理,其作用在于: 1.能利用多个变量对样本进行分类 2.分类结果直观,聚类谱系图能明白、清楚地表...
分类:
其他好文 时间:
2015-02-03 10:50:08
阅读次数:
239
在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了具体说明。本文主要针对怎样用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。1. GM...
分类:
编程语言 时间:
2015-02-01 21:47:26
阅读次数:
264
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。matlab中有kmeans聚类算法的函数可以调用,如[ldx,C,su...
分类:
编程语言 时间:
2015-01-31 21:46:31
阅读次数:
290
数据预处理章节,整理于《数据挖掘·概念与技术》第三章,如有错误,请指正,谢谢~1、概述 数据清理可以去除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储,如数据仓库。数据规约可以通过如聚集,删除冗余特征或聚类降低数据的规模。数据变换(如规约化)可以把数据压缩到较小的....
分类:
其他好文 时间:
2015-01-31 15:59:47
阅读次数:
238
dlib库学习之一1、介绍跨平台 C++ 通用库 Dlib 发布 ,带来了一些新特性,包括概率 CKY 解析器,使用批量同步并行计算模型来创建应用的工具,新增两个聚合算法:中国低语 (Chinese Whispers) 和纽曼的模块化聚类。Dlib是一个使用现代C++技术编写的跨平台的通用库,遵守B...
分类:
其他好文 时间:
2015-01-29 11:51:33
阅读次数:
238
昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。
首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。
根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接
http://snap.stanford.ed...
分类:
其他好文 时间:
2015-01-27 18:24:46
阅读次数:
237
摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?1、线性模型~回归分析:【包】:stats 【函数】:lm(formula, data, .....
分类:
其他好文 时间:
2015-01-23 14:41:06
阅读次数:
407