[数据挖掘课程笔记]关联规则挖掘

时间：2015-10-23 01:34:49 阅读：272 评论：0 收藏：0 [点我收藏+]

标签：

两种度量：

支持度（support） support(A→B) = count(AUB)/N (N是数据库中记录的条数)

自信度（confidence）confidence(A→B) = count(AUB)/count(A)

关联规则挖掘的基本两个步骤：

1.找出所有的频繁项集

2.由频繁项集产生强关联规则

由于整个数据库十分庞大，所以对第一步来说，若使用穷举法，搜索空间将是2^d,d是项的个数。所以优化算法主要需要优化第一步。而频繁项集里的项的数目远小于数据库数据的数目，所以，在第二步中，我们可以采用穷举法。

Apriori Algorithm

频繁：support(A,B)>=min_sp

几个原理：

1.如果X在数据集D中是闭的，那么不存在X的超集Y的支持度与X的支持度相同。

2.X是D中的极大频繁项集（闭的且频繁），那么不存在X的超集Y是频繁的。

3.如果X不是一个频繁项集，那么它的超项集Y也一定不是频繁的。

标签：

原文地址：http://www.cnblogs.com/leeshum/p/4903285.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行