标签:
1、背景
1993年,Agrawal提出了关联规则(Association Rule)问题,旨在发现顾客购货篮内商品间令人感兴趣的关系。
“啤酒和尿布” 沃尔玛利用NCR数据挖掘工具意外的发现:跟尿布一起购买最多的商品竟是啤酒!
今天,关联规则已广泛应用于金融、营销以及生物信息学等领域。
2、概念
1)基本概念:
项集:一个或多个项目的集合。 例如: {Milk, Bread, Diaper} ,包含k 个项目的项集称为k-项集
绝对支持度 ():某一项集出现的次数。 比如 ({Milk, Bread,Diaper}) = 2
相对支持度(s): 包含某一项集的事务在全体事务中的比例。比如. s({Milk, Bread, Diaper}) = 2/5
频繁项集: 支持度不小于给定最小支持度阈值(minsup)的项集
2)关联规则
(1)关联规则:寻找给定的数据集中项目之间令人感兴趣的关系
形如 X Y的蕴涵式, 其中 X 和Y是项集,且XY=。 比如: {Milk, Diaper} {Beer}
3)规则评价参数
支持度 (s) 同时包含X和Y的事务占全部事务的百分比
可信度 (c) 包含项集X的事务中也包含Y的百分比
4)关联规则挖掘的一般流程
3、算法
3.1Apriori
标签:
原文地址:http://www.cnblogs.com/chamie/p/4533090.html