标签:
在上一篇 数据挖掘入门算法整理 中提到, Apriori算法是 关联规则算法中使用最为广泛的算法,这次我们就来学习下该算法的基本知识。支持度计算过程
可以看到,最终可以得到3层支持度:L1,L2,L3,接下来,我们可以直接通过支持度计算各层的置信度,这里我们以L3为例:
置信度计算比较简单,就是根据K层集合中K-1个元素到另外一个元素的置信度,直接套用上边公式即可。这里我们其实可以得出规则,当BC或CE出现的时候,E或B必然出现。当然,这里只是个简单的例子,实际中必须要有足够的样本,结果才更可靠。
从上边看Apriori算法基本原理还是比较简单的,但是实际过程中如果按照这样来计算,对于N个商品会有2^N?1个组合,但N稍大点计算量就非常大了,所以实际算法实现中,要利用开头提到Apriori算法的性质进行剪枝,以减少计算量。此外,关联规则算法还有FP-Growth和Eclat等更为高效的算法,这里不再介绍,可自行了解。
参考: Apriori算法详解、使用Apriori算法和FP-growth算法进行关联分析
标签:
原文地址:http://my.oschina.net/goodtemper/blog/508802