频繁模式是频繁地出现在数据集中的模式(如项集、子序列或者子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。...
分类:
编程语言 时间:
2014-12-17 12:48:26
阅读次数:
320
Apriori算法是一个容易理解,逻辑简单,代码容易编写的一个大数据频繁项集查找的算法。
设最小支持度计数为3 即个数要大于等于3的才是频繁项
如图1--原始数据库 计数得到图2--每个东西的个数 则得到图3的频繁一项
...
分类:
编程语言 时间:
2014-12-10 21:18:59
阅读次数:
229
FP-growth算法优缺点:优点:一般快于Apriori缺点:实现比较困难,在某些数据上性能下降适用数据类型:标称型数据算法思想:FP-growth算法是用来解决频繁项集发现问题的,这个问题再前面我们可以通过Apriori算法来解决,但是虽然利用Apriori原理加快了速度,仍旧是效率比较低的。F...
分类:
其他好文 时间:
2014-12-10 00:24:33
阅读次数:
407
Apriori算法优点:易编码实现缺点:在大数据集上可能较慢适用数据类型:数值型或者标称型算法过程:关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。支持度(support...
分类:
编程语言 时间:
2014-12-08 02:00:55
阅读次数:
334
有这样一个故事:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。"尿布和啤酒":关联规则的一个非常有名的故事。关联规则的是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析。...
分类:
编程语言 时间:
2014-12-07 20:25:12
阅读次数:
682
DM实验,写的比较二,好多情况还没有考虑,后续有时间会修改。
开始的时候数据结构没设计好导致写到后面费了很大的劲、不过还好python的列表有起死回生的功效、、、
数据集:database.txt
I1,I2,I5
I2,I4
I2,I3
I1,I2,I4
I1,I3
I2,I3
I1,I3
I1,I2,I3,I5
I1,I2,I3
apriori.py
#coding=utf-8
...
分类:
编程语言 时间:
2014-12-03 23:23:15
阅读次数:
294
国际权威的学术组织 ICDM(theIEEEInternational ConferenceonDataMining)曾评选出了数据挖掘领域的十大经典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes和CART。其实不仅仅...
分类:
编程语言 时间:
2014-11-26 10:57:41
阅读次数:
295
Apriori算法是数据挖掘中频发模式挖掘的鼻祖,从60年代就开始流行,其算法思想也十分简单朴素,首先挖掘出长度为1的频繁模式,然后k=2
将这些频繁模式合并组成长度为k的频繁模式,算出它们的频繁次数,而且要保证其所有k-1长度的子集也是频繁的,值得注意的是,为了避免重复,合并的时候,只合并那些前k-2个字符都相同,而k-1的字符一边是少于另一边的。
以下是算法的Python实现:
__au...
分类:
编程语言 时间:
2014-11-08 15:20:43
阅读次数:
191
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2014-11-08 14:58:18
阅读次数:
236
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2014-11-06 12:23:39
阅读次数:
211