码迷,mamicode.com
首页 >  
搜索关键字:频繁项集    ( 117个结果
FP-growth算法
使用FP-growth算法来高效发现频繁项集前言你用过搜索引擎挥发现这样一个功能:输入一个单词或者单词的一部分,搜索引擎酒会自动补全查询词项,用户甚至实现都不知道搜索引擎推荐的东西是否存在,反而会去查找推荐词项,比如在百度输入“为什么”开始查询时,会出现诸如“为什么我有了变身器却不能变身奥特曼”之类滑稽的推荐结果,为了给出这些推荐查询慈祥,搜索引擎公司的研究人员使用了本文要介绍的一个算法...
分类:编程语言   时间:2015-05-21 15:39:35    阅读次数:447
不产生候选集的关联规则挖掘算法FP-Tree
上篇博客讲述了Apriori算法的思想和java实现,http://blog.csdn.net/u010498696/article/details/45641719 Apriori算法是经典的关联规则算法,但是如上篇博客所述,它也有两个致命的性能瓶颈,一个是频繁集自连接产生候选集这一步骤中可能产生大量的候选集;另一个是从候选集得到频繁项集需要重复扫描数据库。 2000年,Han等提出了一个称为...
分类:编程语言   时间:2015-05-18 16:48:00    阅读次数:199
使用Apriori算法和FP-growth算法进行关联分析
系列文章:《机器学习》学习笔记 最近看了《机器学习实战》中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集)。正如章节标题所示,这两章讲了无监督机器学习方法中的关联分析问题。关联分析可以用于回答"哪些商品经常被同时购买?"之类的问题。书中举了一...
分类:编程语言   时间:2015-05-18 00:53:01    阅读次数:314
Apriori算法学习和java实现
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系。一个典型的关联规则挖掘例子是购物篮分析,即通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购物习惯,从而可以帮助零售商指定营销策略,引导销售等。国外有"啤酒与尿布"的故事,国内有泡面和火腿的故事。本文以Apriori算法为例介绍关联规则挖掘并以java实现。 什么是关联规则: 对于记录的集合D和记录A,记录B,A,B属于D:...
分类:编程语言   时间:2015-05-11 14:57:28    阅读次数:181
使用Apriori算法进行关联分析
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则...
分类:编程语言   时间:2015-04-21 17:28:47    阅读次数:156
数据挖掘算法总结
一、关联规则挖掘 1、 Apriori算法 (1)Apriori算法原理 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规...
分类:编程语言   时间:2015-04-21 00:26:32    阅读次数:376
基于节点列表的项集表示框架的频繁项集挖掘最新进展
最新的论文在Expert Systems with Applications 2015 42卷13期上发表。 这篇论文采用等价类提升的策略,极大地提升了挖掘的速度,并且节省了内存消耗。所形成的PrePost+算法在时间和空间的性能度要明显优于PrePost和FIN算法。 PrePost+算法的下载地址为:http://www.cis.pku.edu.cn/faculty/system/deng...
分类:其他好文   时间:2015-04-20 22:45:35    阅读次数:175
R关联规则分析之Arules包详解
Arules包详解 包基本信息 发布日期:2014-12-07 题目:挖掘关联规则和频繁项集 描述:提供了一个表达、处理、分析事务数据和模式(频繁项集合关联规则)的基本框架。 URL:http://R-Forge.R-project.org/projects/arules/,http://lyle....
分类:其他好文   时间:2015-04-15 16:59:41    阅读次数:260
【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法
频繁模式:频繁出现的模式(可以是项集、子序列或子结构) 基本概念 支持度:support 置信度:confidence 关联规则:association 找出所有的频繁项集:出现次数≥最小支持计数 由频繁项集产生强关联的规则(定义最小支持度和最小置信度) 频度(支持度计数):出现的次数 频繁项集:项...
分类:其他好文   时间:2015-03-12 00:42:58    阅读次数:156
Spark下的FP-Growth和Apriori(频繁项集挖掘并行化算法)
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:编程语言   时间:2015-02-01 13:33:53    阅读次数:310
117条   上一页 1 ... 7 8 9 10 11 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!