码迷,mamicode.com
首页 > 其他好文 > 详细

关联规则之频繁模式树及其并行计算

时间:2014-06-30 16:20:38      阅读:482      评论:0      收藏:0      [点我收藏+]

标签:机器学习   模式识别   并行计算   关联规则   频繁模式树   

       Frequent Pattern Tree(频繁模式树)是Jiawei Han在文章《Mining Frequent Patterns without Candidate Generation 》中提出的。

————————————————————————————————————————————————————

下面给出一些定义:

设项集(set of items)bubuko.com,布布扣,交易数据库(transaction database)bubuko.com,布布扣,其中交易(transaction)bubuko.com,布布扣bubuko.com,布布扣,是 bubuko.com,布布扣中的元素组成的集合。模式(Pattern)A是bubuko.com,布布扣中的元素组成的集合,模式A的支持度(support)是指交易数据库中包含A的交易的数量。bubuko.com,布布扣是最小支持度阈值,如果,模式A的支持度大于bubuko.com,布布扣,那么称A为频繁模式。

频繁模式树就是要找到交易数据库中的频繁模式。

————————————————————————————————————————————————————

例子:

设项集bubuko.com,布布扣,交易数据库如下表:

bubuko.com,布布扣

最小支持度阈值bubuko.com,布布扣

构造频繁模式树只需要扫描(scan)交易数据库次。

第一次:扫描数据库,对其中的每一个项进行计数,例如,项bubuko.com,布布扣出现了4次,依次类推我们对其中的每一项进行计数,因为最小支持度阈值为3,,我们下面只给出出现次数大于3的项:

bubuko.com,布布扣

然后,我们对每一个交易,只保留大于3的项,并排序,然后我们得出下表,多出了一列就是排序频繁项(Ordered Frequent Items)

bubuko.com,布布扣

第二次:扫描数据库,构造频繁模式树(构造过程很简单,原论文给出了详细的阐述):

bubuko.com,布布扣

—————————————————————————————————————————————————————

根据上面的两步,我们已经构造出了频繁模式树,怎么样通过频繁模式树,找到频繁模式。

其中,我们拿和项bubuko.com,布布扣有关的频繁模式举例,其他依次类推:

首先,我们找到所有bubuko.com,布布扣的节点,并沿着树枝路径向上直到根节点,我们发现有两条路径:

bubuko.com,布布扣bubuko.com,布布扣

然后,我们可以得出出现的3次bubuko.com,布布扣bubuko.com,布布扣同时出现了3次,是同时和bubuko.com,布布扣出现次数最多的项,而且次数大于最小支持度阈值。所以bubuko.com,布布扣就是一个频繁模式,依次类推得出其他项的频繁模式:

bubuko.com,布布扣

所以,通过频繁模式树找到了很多频繁模式。

—————————————————————————————————————————————————————

对于频繁模式树的并行计算(MapReduce),文章

《Parallel FP-Growth for Query Recommendation》中给出了详细说明。

关联规则之频繁模式树及其并行计算,布布扣,bubuko.com

关联规则之频繁模式树及其并行计算

标签:机器学习   模式识别   并行计算   关联规则   频繁模式树   

原文地址:http://blog.csdn.net/zhangping1987/article/details/35983127

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!