参考资料地址: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
我的数据挖掘算法实现源码地址:https://github.com/linyiqun/DataMiningAlgorithm
介绍
要介绍朴素贝叶斯算法(Naive Bayes),那就得先介绍贝叶斯分类算法,贝叶斯分...
分类:
编程语言 时间:
2015-01-13 19:53:09
阅读次数:
245
EM算法大致分为两步——E步骤和M步骤。
而在求解运算过程中,需要用到高斯分布,逆矩阵等数学知识。EM算法上篇先梳理一下基础的数学知识,具体EM算法的核心思想下篇再进行介绍。
由于公式,矩阵太多,便手写一份推导,贴在下面。...
分类:
编程语言 时间:
2015-01-09 21:00:58
阅读次数:
272
转自这里Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于 两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规 则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。由Agrawal等人提出的Apriori是经典的关联规则和频繁项集挖掘算法...
分类:
编程语言 时间:
2014-12-23 21:09:23
阅读次数:
703
专业既然是机器学习,那工作肯定也是继续和数据打交道,那么问题来了,很多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取,怎样高效的抽取数据?
利用往常算法比赛中常用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。
那么,重点来了,正则表达式,干净利落。
模版如下:
//step1,set reg string
String r...
分类:
编程语言 时间:
2014-12-19 00:41:32
阅读次数:
265
主成份分析历史:
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。
通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有...
分类:
编程语言 时间:
2014-12-15 10:29:54
阅读次数:
290
决策树也是最经常使用的数据挖掘算法,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支)。决策树的生成过程就是一个数据集不断被划分的过程,划分数据集的最大原则是:使无序的数据变的有序。如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化划分方法有多重,其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法,其中C4.5和CART两...
分类:
编程语言 时间:
2014-12-14 20:03:24
阅读次数:
661
今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。
首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)
Step1:选择K个点作为初始质心;
Step2:将剩余每个点指派到最近的质心,形成K个簇(聚类);
Step3:重新计算簇的...
分类:
编程语言 时间:
2014-12-12 11:47:35
阅读次数:
277
相关链接http://blog.csdn.net/column/details/datamining.html通俗理解LDA主题模型http://blog.csdn.net/v_july_v/article/details/41209515从贝叶斯方法谈到贝叶斯网络http://blog.csdn....
分类:
编程语言 时间:
2014-12-08 12:10:58
阅读次数:
293
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151
AdaBoost Binary ClassifyAdaBoost MultidimensionalWEKA源码分析
分类:
编程语言 时间:
2014-11-29 18:46:37
阅读次数:
133