问题背景: 从外部导入一个Python项目后,发现包错误,如图: 解决步骤: 1.将目录下的"5-6——apriori.py"复制一份,重命名为”apriori.py"; 2.查资料知,pycharm不会将当前文件目录自动加入自己的sourse_path; 3.右键当前文件的目录名code,。点击m ...
分类:
其他好文 时间:
2019-03-27 10:38:27
阅读次数:
629
Apriori算法 首先,Apriori算法是关联规则挖掘中很基础也很经典的一个算法。 所以做如下补充: 关联规则:形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, ...
分类:
编程语言 时间:
2019-03-16 11:10:17
阅读次数:
184
我们是通过算法来找到数据之间的关联规则(两个物品之间可能存在很强的相关关系)和频繁项集(经常出现在一起的物品的集合)。 我们是通过支持度和置信度来定义关联规则和频繁项集的 一个项集支持度是指在所有数据集中出现这个项集的概率,项集可能只包含一个选项,也有可能是多个选项的组合。 置信度 针对于啤酒——> ...
分类:
编程语言 时间:
2019-02-24 00:32:13
阅读次数:
326
详细代码我已上传到github: "click me" 一、 实验要求 在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法。要求程序利用 Spark 进 行并行计算。 二、算法设计 ...
分类:
编程语言 时间:
2018-12-21 13:15:01
阅读次数:
279
恢复内容开始 1.概念 关联分析:用于发现隐藏在大型数据集中的有意义的联系 项集:0或多个项的集合。例如:{啤酒,尿布,牛奶,花生} 是一个4-项集,意义想象成爸爸去超市买啤酒和花生,给儿子和老婆分别买尿布和牛奶。 关联规则:啤酒->花生,其强度可用支持度和置信度来度量 支持度:一个项集或者规则在所 ...
分类:
编程语言 时间:
2018-11-30 14:03:01
阅读次数:
234
应用ARIMA(1,1,0)对2015年1月1日到2015年2月6日某餐厅的销售数量做为期5天的预测 setwd('D:\\dat') #install.packages("forecast") #install.packages("plyr") #install.packages("fUnitRo ...
分类:
编程语言 时间:
2018-11-29 22:30:52
阅读次数:
393
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 优点:简单 缺点:对大数据集比较慢 使用数据类型:数值型或者标称型 一、相关定义: 频繁项集:经常出现在一起的物品集合 关联规则:两 ...
分类:
编程语言 时间:
2018-11-22 20:55:07
阅读次数:
192
一,Apriori算法 Apriori算法的基本思路: 产生L1候选集,剪枝(去掉L1里面不符合最小支持度的),连枝产生L2候选集,剪枝(去掉候选集不在数据集里的和不满足最小支持度的),产生L3。。。直到不能再产生新的候选集(具体判定就是连枝的时候,k-2项集不存在,这时不能生成k项集) 算法中需要 ...
分类:
其他好文 时间:
2018-11-20 21:44:58
阅读次数:
218
source = f.readlines() f.close() dataset = [] for line in source: line=line.strip().split(' ') curLine = list(map(int,line)) dataset.append(curLine) r ...
分类:
编程语言 时间:
2018-11-19 12:37:56
阅读次数:
170