标签:
两种度量:
支持度(support) support(A→B) = count(AUB)/N (N是数据库中记录的条数)
自信度(confidence)confidence(A→B) = count(AUB)/count(A)
关联规则挖掘的基本两个步骤:
1.找出所有的频繁项集
2.由频繁项集产生强关联规则
由于整个数据库十分庞大,所以对第一步来说,若使用穷举法,搜索空间将是2d,d是项的个数。所以优化算法主要需要优化第一步。而频繁项集里的项的数目远小于数据库数据的数目,所以,在第二步中,我们可以采用穷举法。
Apriori Algorithm
频繁:support(A,B)>=min_sp
几个原理:
1.如果X在数据集D中是闭的,那么不存在X的超集Y的支持度与X的支持度相同。
2.X是D中的极大频繁项集(闭的且频繁),那么不存在X的超集Y是频繁的。
3.如果X不是一个频繁项集,那么它的超项集Y也一定不是频繁的。
标签:
原文地址:http://www.cnblogs.com/leeshum/p/4903285.html