参考资料:http://blog.csdn.net/sealyao/article/details/6460578
更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm
介绍
FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,FP...
分类:
编程语言 时间:
2015-01-29 09:40:29
阅读次数:
534
我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm
介绍
Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找...
分类:
编程语言 时间:
2015-01-23 23:09:12
阅读次数:
628
1.频繁序列模式挖掘
序列模式是频繁模式的一种特殊情况,它们的应用范围完全不一样!如:
购买物品
尿布、啤酒、可乐
面包、尿布、啤酒
上述购物清单是两个用户的购物清单,根据上面的清单,我们可以发现尿布和啤酒组合起来一起购买的情况较多,因此超市可以根据这样的频繁项集分析,将尿布和啤酒放在较近的地方,或者将尿布和啤酒同时促销等增加销量。...
分类:
其他好文 时间:
2015-01-20 09:02:13
阅读次数:
309
1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频...
分类:
编程语言 时间:
2015-01-18 22:31:13
阅读次数:
280
Apriori算法是一种发现频繁项集的基本算法,算法的思想主要就是使用一种称为逐层搜索的迭代方法,K项集用于探索(K+1)项集。算法的伪代码如下:(具体实现正在进行中……)输入:D:事务数据库min_sup:最小支持度阈值输出:L,D中的频繁项集方法:L1=find_frequent_1-items...
分类:
编程语言 时间:
2015-01-13 21:12:18
阅读次数:
160
前言 对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到。 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的。在实际的大数据应用中,这么做就更不好了。 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法。 它只会扫描数据集两次,...
分类:
编程语言 时间:
2015-01-12 12:55:51
阅读次数:
327
前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了。 本文将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现。关联分析领域的一些概念 1. 频繁项集...
分类:
编程语言 时间:
2015-01-09 17:13:21
阅读次数:
188
转自这里Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于 两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规 则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。由Agrawal等人提出的Apriori是经典的关联规则和频繁项集挖掘算法...
分类:
编程语言 时间:
2014-12-23 21:09:23
阅读次数:
703
频繁模式是频繁地出现在数据集中的模式(如项集、子序列或者子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。...
分类:
编程语言 时间:
2014-12-17 12:48:26
阅读次数:
320
Apriori算法是一个容易理解,逻辑简单,代码容易编写的一个大数据频繁项集查找的算法。
设最小支持度计数为3 即个数要大于等于3的才是频繁项
如图1--原始数据库 计数得到图2--每个东西的个数 则得到图3的频繁一项
...
分类:
编程语言 时间:
2014-12-10 21:18:59
阅读次数:
229