FP-growth算法优缺点:优点:一般快于Apriori缺点:实现比较困难,在某些数据上性能下降适用数据类型:标称型数据算法思想:FP-growth算法是用来解决频繁项集发现问题的,这个问题再前面我们可以通过Apriori算法来解决,但是虽然利用Apriori原理加快了速度,仍旧是效率比较低的。F...
分类:
其他好文 时间:
2014-12-10 00:24:33
阅读次数:
407
FP_Gwoth算法是一种不生成候选集从而寻找频繁项集的算法,主要基于树结构:包含一个一棵FP_Tree和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FP_Tree(有后缀的也成条件FP_Tree)中高支持度的节点只能是低支持度节点的祖先节点。这样一来可以保证尽可能的共用祖先节点,更重要的是保证正确性。...
分类:
编程语言 时间:
2014-12-08 19:38:23
阅读次数:
306
Apriori算法优点:易编码实现缺点:在大数据集上可能较慢适用数据类型:数值型或者标称型算法过程:关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。支持度(support...
分类:
编程语言 时间:
2014-12-08 02:00:55
阅读次数:
334
这两个算法均给予我们小组提出了基于模式树节点集的新颖数据结构,它们的效率要优于传统主流挖掘算法,可以在其基础上重写所有与频繁项集挖掘相关的任务,如闭模式、最长模式和TOP-K模式等等。...
分类:
编程语言 时间:
2014-11-21 16:15:30
阅读次数:
180
说明:参考Mahout FP算法相关相关源码。算法工程可以在下载:(只是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于下面的思路:1. 首先使用原始的FP树关联规则挖掘出所有的频繁项集及其支持度;这里需要注意,这里是输出所有的频繁项集,并没有把频繁项集合并,所以需要修改FP树的相关代码,在某些步骤把所有的频繁项集输出;(ps:参考Mahout的FP树单机版的实现,...
分类:
编程语言 时间:
2014-11-19 15:58:12
阅读次数:
262
FP树与python实现 ,使用FP-growth算法高效发现频繁项集。...
分类:
编程语言 时间:
2014-11-17 19:34:12
阅读次数:
309
支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。 设事务数据库为: A E F G
A F G
A B ...
分类:
编程语言 时间:
2014-11-01 23:21:27
阅读次数:
415
Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。转自http://blog.csdn.net/sealyao/article/details/6460578Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法...
分类:
其他好文 时间:
2014-10-10 23:55:04
阅读次数:
1761
1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频...
分类:
其他好文 时间:
2014-10-09 15:50:43
阅读次数:
381
一、概念 关联规则挖掘:从食物数据库、关系数据库等大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 关联规则的兴趣度度量:support、confidence K-项集:包含K个项的集合 项集的频率:包含项集的事务数 频繁项集:如果项集的频率大于最小支持度*事务总数,则该项集成...
分类:
其他好文 时间:
2014-10-02 16:33:23
阅读次数:
286