详细代码我已上传到github: "click me" 一、 实验要求 在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法。要求程序利用 Spark 进 行并行计算。 二、算法设计 ...
分类:
编程语言 时间:
2018-12-21 13:15:01
阅读次数:
279
恢复内容开始 1.概念 关联分析:用于发现隐藏在大型数据集中的有意义的联系 项集:0或多个项的集合。例如:{啤酒,尿布,牛奶,花生} 是一个4-项集,意义想象成爸爸去超市买啤酒和花生,给儿子和老婆分别买尿布和牛奶。 关联规则:啤酒->花生,其强度可用支持度和置信度来度量 支持度:一个项集或者规则在所 ...
分类:
编程语言 时间:
2018-11-30 14:03:01
阅读次数:
234
应用ARIMA(1,1,0)对2015年1月1日到2015年2月6日某餐厅的销售数量做为期5天的预测 setwd('D:\\dat') #install.packages("forecast") #install.packages("plyr") #install.packages("fUnitRo ...
分类:
编程语言 时间:
2018-11-29 22:30:52
阅读次数:
393
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 优点:简单 缺点:对大数据集比较慢 使用数据类型:数值型或者标称型 一、相关定义: 频繁项集:经常出现在一起的物品集合 关联规则:两 ...
分类:
编程语言 时间:
2018-11-22 20:55:07
阅读次数:
192
一,Apriori算法 Apriori算法的基本思路: 产生L1候选集,剪枝(去掉L1里面不符合最小支持度的),连枝产生L2候选集,剪枝(去掉候选集不在数据集里的和不满足最小支持度的),产生L3。。。直到不能再产生新的候选集(具体判定就是连枝的时候,k-2项集不存在,这时不能生成k项集) 算法中需要 ...
分类:
其他好文 时间:
2018-11-20 21:44:58
阅读次数:
218
source = f.readlines() f.close() dataset = [] for line in source: line=line.strip().split(' ') curLine = list(map(int,line)) dataset.append(curLine) r ...
分类:
编程语言 时间:
2018-11-19 12:37:56
阅读次数:
170
参考博客:http://www.cnblogs.com/llhthinker/p/6719779.html 学习的别人的代码,用Python实现的Apriori算法,算法介绍见https://www.cnblogs.com/1113127139aaa/p/9926507.html 内容是实现Apri ...
分类:
编程语言 时间:
2018-11-12 11:38:10
阅读次数:
318
hash tree(哈希树),是由tree和hash table结合,旨在优化hash table冲突解决方案的一种数据结构。 在链式hash table中,若关键字发生冲突,则创建单个新节点链到冲突节点之后,并把关键字插入到新节点。 而在hash tree结构中,若关键字发生冲突,则创建一组新节点... ...
分类:
编程语言 时间:
2018-10-26 22:15:40
阅读次数:
178
运行结果: 目录: 1.关联分析 2. Apriori 原理 3. 使用 Apriori 算法来发现频繁集 4.从频繁集中挖掘关联规则 5. 总结 1.关联分析 返回目录 关联分析是一种在大规模数据集中寻找有趣关系的任务。这种关系表现为两种形式: 1.频繁项集(frequency item sets ...
分类:
编程语言 时间:
2018-08-20 22:54:44
阅读次数:
397