之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用
在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大
所以这里首先介绍在单机内存中运行的FPGrowth算法
还是使用apriori算法的购物车数据作为例子,如下图所示:...
分类:
编程语言 时间:
2015-04-24 14:22:49
阅读次数:
185
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用
举个简单的例子
如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥
而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐
这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的...
分类:
编程语言 时间:
2015-04-24 09:06:25
阅读次数:
228
1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离...
分类:
编程语言 时间:
2015-04-23 12:30:07
阅读次数:
203
一、关联规则挖掘
1、 Apriori算法
(1)Apriori算法原理
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规...
分类:
编程语言 时间:
2015-04-21 00:26:32
阅读次数:
376
算法介绍
KD树的全称为k-Dimension Tree的简称,是一种分割K维空间的数据结构,主要应用于关键信息的搜索。为什么说是K维的呢,因为这时候的空间不仅仅是2维度的,他可能是3维,4维度的或者是更多。我们举个例子,如果是二维的空间,对于其中的空间进行分割的就是一条条的分割线,比如说下面这个样子。
如果是3维的呢,那么分割的媒介就是一个平面了,下面是3维空间的分割
这就...
分类:
其他好文 时间:
2015-04-11 09:01:02
阅读次数:
4534
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误:
15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labels
Exception in thread "main" org.apache.spark.S...
分类:
Web程序 时间:
2015-04-09 23:52:01
阅读次数:
262
参考文献:
http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html
http://blog.csdn.net/v_july_v/article/details/7109500
我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm
我的算法库:h...
分类:
编程语言 时间:
2015-04-06 08:59:45
阅读次数:
197
参考文献:http://www.zilhua.com/629.html
http://www.tuicool.com/articles/JvMJve
http://blog.sina.com.cn/s/blog_573085f70101ivj5.html
我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm
我的算法库:https...
分类:
其他好文 时间:
2015-03-31 09:15:44
阅读次数:
184
本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希...
分类:
编程语言 时间:
2015-02-27 12:02:45
阅读次数:
143
参考资料:http://baike.baidu.com/link?url=vlCBGoGR0_97l9SQ-WNeRv7oWb-3j7c6oUnyMzQAU3PTo0fx0O5MVXxckgqUlP871xR2Le-puGfFcrA4-zIntq
更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm
介绍
RoughSets算法是一种比...
分类:
编程语言 时间:
2015-02-18 11:55:32
阅读次数:
205