搜索关键字：频繁项集，搜索到117个结果！码迷,mamicode.com！

FP-growth算法

使用FP-growth算法来高效发现频繁项集前言你用过搜索引擎挥发现这样一个功能：输入一个单词或者单词的一部分，搜索引擎酒会自动补全查询词项，用户甚至实现都不知道搜索引擎推荐的东西是否存在，反而会去查找推荐词项，比如在百度输入“为什么”开始查询时，会出现诸如“为什么我有了变身器却不能变身奥特曼”之类滑稽的推荐结果，为了给出这些推荐查询慈祥，搜索引擎公司的研究人员使用了本文要介绍的一个算法...

分类：编程语言时间：2015-05-21 15:39:35 阅读次数：447

不产生候选集的关联规则挖掘算法FP-Tree

上篇博客讲述了Apriori算法的思想和java实现，http://blog.csdn.net/u010498696/article/details/45641719 Apriori算法是经典的关联规则算法，但是如上篇博客所述，它也有两个致命的性能瓶颈，一个是频繁集自连接产生候选集这一步骤中可能产生大量的候选集；另一个是从候选集得到频繁项集需要重复扫描数据库。 2000年，Han等提出了一个称为...

分类：编程语言时间：2015-05-18 16:48:00 阅读次数：199

使用Apriori算法和FP-growth算法进行关联分析

系列文章：《机器学习》学习笔记最近看了《机器学习实战》中的第11章（使用Apriori算法进行关联分析）和第12章（使用FP-growth算法来高效发现频繁项集）。正如章节标题所示，这两章讲了无监督机器学习方法中的关联分析问题。关联分析可以用于回答"哪些商品经常被同时购买？"之类的问题。书中举了一...

分类：编程语言时间：2015-05-18 00:53:01 阅读次数：314

Apriori算法学习和java实现

关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系。一个典型的关联规则挖掘例子是购物篮分析，即通过发现顾客放入其购物篮中的不同商品之间的联系，分析顾客的购物习惯，从而可以帮助零售商指定营销策略，引导销售等。国外有"啤酒与尿布"的故事，国内有泡面和火腿的故事。本文以Apriori算法为例介绍关联规则挖掘并以java实现。什么是关联规则：对于记录的集合D和记录A，记录B,A,B属于D：...

分类：编程语言时间：2015-05-11 14:57:28 阅读次数：181

使用Apriori算法进行关联分析

关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则...

分类：编程语言时间：2015-04-21 17:28:47 阅读次数：156

数据挖掘算法总结

一、关联规则挖掘 1、 Apriori算法（1）Apriori算法原理 Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规...

分类：编程语言时间：2015-04-21 00:26:32 阅读次数：376

基于节点列表的项集表示框架的频繁项集挖掘最新进展

最新的论文在Expert Systems with Applications 2015 42卷13期上发表。这篇论文采用等价类提升的策略，极大地提升了挖掘的速度，并且节省了内存消耗。所形成的PrePost+算法在时间和空间的性能度要明显优于PrePost和FIN算法。 PrePost+算法的下载地址为：http://www.cis.pku.edu.cn/faculty/system/deng...

分类：其他好文时间：2015-04-20 22:45:35 阅读次数：175

R关联规则分析之Arules包详解

Arules包详解包基本信息发布日期：2014-12-07 题目：挖掘关联规则和频繁项集描述：提供了一个表达、处理、分析事务数据和模式(频繁项集合关联规则)的基本框架。 URL：http://R-Forge.R-project.org/projects/arules/，http://lyle....

分类：其他好文时间：2015-04-15 16:59:41 阅读次数：260

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性：基本概念和方法

频繁模式：频繁出现的模式（可以是项集、子序列或子结构）基本概念支持度：support 置信度：confidence 关联规则：association 找出所有的频繁项集：出现次数≥最小支持计数由频繁项集产生强关联的规则（定义最小支持度和最小置信度）频度（支持度计数）：出现的次数频繁项集：项...

分类：其他好文时间：2015-03-12 00:42:58 阅读次数：156

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域，其中频繁模式的挖掘是关联挖掘的核心和基础，是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写，充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性，充分发挥了FP-Growth。...

分类：编程语言时间：2015-02-01 13:33:53 阅读次数：310