码迷,mamicode.com
首页 > 其他好文 > 详细

挖掘频繁项集

时间:2018-11-20 21:44:58      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:注意   字典   形式   思路   存在   color   处理   一个   频繁项集   

一,Apriori算法

Apriori算法的基本思路:

        产生L1候选集,剪枝(去掉L1里面不符合最小支持度的),连枝产生L2候选集,剪枝(去掉候选集不在数据集里的和不满足最小支持度的),产生L3。。。直到不能再产生新的候选集(具体判定就是连枝的时候,k-2项集不存在,这时不能生成k项集)

算法中需要注意的细节

        为了在统计L1候选集的频次的时候,能把L1作为字典的健,要把L1进行frozenset。用map()函数,把list里面的每一个元素都转换成set,转换之后会有重复的set(set的不重复性指的是set内部)。

        if a.issubset(b):如果a是b里面的子集则返回为真

        数据集要预处理转换成set形式,这样才能保证数据集的安全性

 

        

     

挖掘频繁项集

标签:注意   字典   形式   思路   存在   color   处理   一个   频繁项集   

原文地址:https://www.cnblogs.com/yttas/p/9991667.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!