前言 对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到。 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的。在实际的大数据应用中,这么做就更不好了。 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法。 它只会扫描数据集两次,...
分类:
编程语言 时间:
2015-01-12 12:55:51
阅读次数:
327
本人最近研究Aprior算法,由于要实现海量数据的分析挖掘,需要在hadoop平台加以实现。在网上看过一些Aprior算法Mapreduce的代码,感觉拿过来都不好直接用,而且,多数都不是原味的Aprior,或者经过改进,是FP-growth算法,或者是将数据分块,各块独立运行Aprior算法,不是...
分类:
编程语言 时间:
2014-12-17 22:10:20
阅读次数:
298
FP-growth算法优缺点:优点:一般快于Apriori缺点:实现比较困难,在某些数据上性能下降适用数据类型:标称型数据算法思想:FP-growth算法是用来解决频繁项集发现问题的,这个问题再前面我们可以通过Apriori算法来解决,但是虽然利用Apriori原理加快了速度,仍旧是效率比较低的。F...
分类:
其他好文 时间:
2014-12-10 00:24:33
阅读次数:
407
FP_Gwoth算法是一种不生成候选集从而寻找频繁项集的算法,主要基于树结构:包含一个一棵FP_Tree和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FP_Tree(有后缀的也成条件FP_Tree)中高支持度的节点只能是低支持度节点的祖先节点。这样一来可以保证尽可能的共用祖先节点,更重要的是保证正确性。...
分类:
编程语言 时间:
2014-12-08 19:38:23
阅读次数:
306
FP树与python实现 ,使用FP-growth算法高效发现频繁项集。...
分类:
编程语言 时间:
2014-11-17 19:34:12
阅读次数:
309
要解决的问题,频繁项集 最暴力的方法,就是遍历所有的项集组合,当然计算量过大 最典型的算法apriori, 算法核心思想,当一个集合不是频繁项集,那么它的超集也一定不是频繁项集 这个结论是很明显的,基于这样的思路,可以大大减少频繁项集的候选项 因为你只要发现一个集合非频繁项集,那么他所有的超集都可以...
分类:
其他好文 时间:
2014-09-28 15:27:22
阅读次数:
346
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法。与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上,面对大数据量时,FP-Growth算法生成.....
分类:
其他好文 时间:
2014-09-13 15:46:05
阅读次数:
406
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。比如,67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品.....
分类:
其他好文 时间:
2014-08-11 14:22:12
阅读次数:
744
FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。...
分类:
编程语言 时间:
2014-06-18 12:22:01
阅读次数:
495
并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用...
分类:
其他好文 时间:
2014-06-18 06:35:13
阅读次数:
186