码迷,mamicode.com
首页 > 其他好文 > 详细

[数据挖掘课程笔记]关联规则挖掘

时间:2015-10-23 01:34:49      阅读:272      评论:0      收藏:0      [点我收藏+]

标签:

 

两种度量:

     支持度(support)  support(A→B) = count(AUB)/N (N是数据库中记录的条数)

       自信度(confidence)confidence(A→B) = count(AUB)/count(A)

 

关联规则挖掘的基本两个步骤:

    1.找出所有的频繁项集

     2.由频繁项集产生强关联规则

      由于整个数据库十分庞大,所以对第一步来说,若使用穷举法,搜索空间将是2d,d是项的个数。所以优化算法主要需要优化第一步。而频繁项集里的项的数目远小于数据库数据的数目,所以,在第二步中,我们可以采用穷举法。

 

Apriori Algorithm

    频繁:support(A,B)>=min_sp

      几个原理:

      1.如果X在数据集D中是闭的,那么不存在X的超集Y的支持度与X的支持度相同。

      2.X是D中的极大频繁项集(闭的且频繁),那么不存在X的超集Y是频繁的。

      3.如果X不是一个频繁项集,那么它的超项集Y也一定不是频繁的。

 

[数据挖掘课程笔记]关联规则挖掘

标签:

原文地址:http://www.cnblogs.com/leeshum/p/4903285.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!