码迷,mamicode.com
首页 > 移动开发 > 详细

数据挖掘十大算法之Appriori算法

时间:2015-06-22 06:28:52      阅读:196      评论:0      收藏:0      [点我收藏+]

标签:

1、引言

     Appriori算法是用来干什么的?主要是用来解决类似于这样的问题:如果客户买了啤酒,他还会去买尿布吗?

理论的核心:

            频繁项目集的子集仍是频繁项目集;非频繁项目集的超集是非频繁项目集。这个理论一直作为经典的数据挖掘理论被应用。

定理(Appriori 属性1). 

            如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集。

定理(Appriori 属性2).

            如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集。

2、以一个实例来说明Appriori算法

题目:数据库有5个事务。设min_sup=60%,min_conf=80%。

技术分享

(1)使用Apriori算法找出所有频繁项集。

(2)列举两条强关联规则。

 

解:(1)确定最小事物支持度计数为5*60%=3。

技术分享


(2)确定最小可信度为80%。

a.频繁项目集L1={E,K,O},L1的非空子集S1有{E,K},{E,O},{K,O},{E},{K},{O},可得到关联规则如下:

E∧K->O   cf=3/4=75%

E∧O->K  cf=3/3=100%

K∧O->E   cf=3/3=100%

E->K∧O   cf=3/4=75%

K->E∧O   cf=3/5=60%

O->E∧K   cf=3/3=100%

最终输出的关联规则为:

E∧O->K   cf=3/3=100%

K∧O->E   cf=3/3=100%

O->E∧K   cf=3/3=100%

b.对于频繁项目集{E,M,O}同理。

3、Word文档下载

(1)


原文作者:Joe Chael

原文地址:http://blog.csdn.net/qingdujun/article/details/46586721


数据挖掘十大算法之Appriori算法

标签:

原文地址:http://blog.csdn.net/qingdujun/article/details/46586721

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!