上篇博客讲述了Apriori算法的思想和java实现,http://blog.csdn.net/u010498696/article/details/45641719 Apriori算法是经典的关联规则算法,但是如上篇博客所述,它也有两个致命的性能瓶颈,一个是频繁集自连接产生候选集这一步骤中可能产生大量的候选集;另一个是从候选集得到频繁项集需要重复扫描数据库。
2000年,Han等提出了一个称为...
分类:
编程语言 时间:
2015-05-18 16:48:00
阅读次数:
199
数据库:
派生属性:其值可以从一个相关属性和属性集的值派生得到的属性。
多值属性:指同时由多个值表示的属性。
数据挖掘:应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识。1,决策树。2,神经网络。3,遗传算法。4,关联规则挖掘算法。
数据挖掘的分析方法分4种:关联分析、序列模式分析、分类分析、聚类分析。
命名冲突:相同意义的属性,在不同的分E-R图上有不同的命名,或名称相...
分类:
数据库 时间:
2015-05-14 23:52:39
阅读次数:
247
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系。一个典型的关联规则挖掘例子是购物篮分析,即通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购物习惯,从而可以帮助零售商指定营销策略,引导销售等。国外有"啤酒与尿布"的故事,国内有泡面和火腿的故事。本文以Apriori算法为例介绍关联规则挖掘并以java实现。
什么是关联规则:
对于记录的集合D和记录A,记录B,A,B属于D:...
分类:
编程语言 时间:
2015-05-11 14:57:28
阅读次数:
181
1.1 FPGrowth算法
1.1.1 基本概念
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
关联规则的相关术语如下:
(1)项与项集
这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite...
分类:
编程语言 时间:
2015-05-09 17:35:41
阅读次数:
201
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用
在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大
所以这里首先介绍在单机内存中运行的FPGrowth算法
还是使用apriori算法的购物车数据作为例子,如下图所示:...
分类:
编程语言 时间:
2015-04-24 14:22:49
阅读次数:
185
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用
举个简单的例子
如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥
而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐
这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的...
分类:
编程语言 时间:
2015-04-24 09:06:25
阅读次数:
228
一、关联规则挖掘
1、 Apriori算法
(1)Apriori算法原理
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规...
分类:
编程语言 时间:
2015-04-21 00:26:32
阅读次数:
376
Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis)...
分类:
其他好文 时间:
2015-04-13 18:37:09
阅读次数:
118
浅谈数据挖掘中的关联规则挖掘 数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的 课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客....
分类:
其他好文 时间:
2015-03-28 17:03:52
阅读次数:
145
本篇代码可在 下载。前篇《HotSpot关联规则算法(1)-- 挖掘离散型数据》分析了离散型数据的HotSpot关联规则,本篇分析离散型和连续型数据的HotSpot关联规则挖掘。1. 首先看下数据格式(txt文档):@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidi...
分类:
编程语言 时间:
2015-03-15 00:48:30
阅读次数:
239