1:关联分析
2:Apriori算法和FP-growth算法原理
3:使用Apriori算法发现频繁项集
4:使用FP-growth高效发现频繁项集
5:实例:从新闻站点点击流中挖掘新闻报道
以下程序用到的源代码下载地址:GitHub
一:关联分析
1:相关概念
关联分析(association analysis):从大规模数据集中寻找商品的隐含关系
项集 (itemse...
分类:
编程语言 时间:
2016-05-12 20:32:57
阅读次数:
10759
APRIORI Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。 Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来 ...
分类:
编程语言 时间:
2016-05-11 23:49:57
阅读次数:
275
1. 关联分析
1.1 定义
关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则.
(1) 频繁项集(frequent item sets): 经常出现在一起的物品的集合;
(2) 关联规则(association rules): 暗示两种物品之间可能存在很强的关系.
1.2 量化关联分析是否成功...
分类:
其他好文 时间:
2016-04-22 20:02:21
阅读次数:
236
一:背景 http://www.cnblogs.com/aijianiula/p/5397857.html 上节中,总结了频繁项集挖掘的最基本算法:Apriori算法。这篇文章写下它的改进算法FGrowth算法,记得这个算法是香港一位教师提出来的,其思想非常值得借鉴和思考。 二:FGrowth FP ...
分类:
编程语言 时间:
2016-04-16 13:46:48
阅读次数:
401
使用场景如: 用户频道属性分析 、用户忠诚度分析 、用户偏好路径分析、 用户偏好终端分析、 用户访问网站时间分析、 用户浏览内容分析 例子:一用户某次访问网站的路径示意图 Apriori算法 需要扫描多个事物数据集,增加IO开销。会产生2的k次方频繁项集。 FP-Tree算法 概念: 树 链 节点 ...
分类:
编程语言 时间:
2016-03-30 19:22:49
阅读次数:
298
频繁项集 的非空子集也必须是频繁项集 非频繁项集的任一超集也必然不是频繁项集 如果K-维频繁项集集合中包含单个项目i的个数小于K-1,则i不可能在频繁K项集中(apriori算法中并没有用到这个性质,可以借助这个性质来进行优化,性质会在后面举例) ...
分类:
编程语言 时间:
2016-03-27 11:05:02
阅读次数:
169
关联规则的基本模型—规则
关联规则的基本模型—置信度
关联规则的基本模型—支持度
关联规则基本概念
频繁项集举例
关联规则举例
Apriori的步骤
Apriori的重要性质
Apriori算法实例—产生频繁项集
Apriori算法实例—产生关联规则
Apriori算法思想总结
Apriori算法代码
由L(k-1)生成候选集Ck
从频繁项集中挖掘关联规则...
分类:
编程语言 时间:
2016-03-14 19:00:10
阅读次数:
276
前言: 关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍。 本文主要介绍从 FP-tree 中提取频繁项集的算法。关于伪代码请查看上面的文章。 FP-tree 的构造请见:FP-Growth算法之 FP-tree 的构造(python)。 正文: tree_miner.py\co
分类:
编程语言 时间:
2016-02-27 21:54:45
阅读次数:
1396
目录:1.关联分析2. Apriori 原理3. 使用 Apriori 算法来发现频繁集4.从频繁集中挖掘关联规则5. 总结1.关联分析 返回目录关联分析是一种在大规模数据集中寻找有趣关系的任务。这种关系表现为两种形式:1.频繁项集(frequency item sets):经常同时出现的一些元素的...
分类:
编程语言 时间:
2015-11-28 21:38:47
阅读次数:
358
FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上,然后发现频繁项集或者频繁项对。通常,FP-growth算法的性能比Apriori好两个数量级以上。FP树与...
分类:
其他好文 时间:
2015-11-04 22:59:46
阅读次数:
545