一. 项目需求 根据用户购买的商品,对购买数据做关联分析 获得用户的商品频繁模式,比如哪些商品经常被一起购买 根据用户的频繁模式,可以做相应的打包销售或产品组合销售 二. 项目数据 数据特征:交易ID(order_id)和商品名称(product_name) 数据格式:事务性数据 每次交易只有一个唯 ...
分类:
其他好文 时间:
2020-04-20 21:59:51
阅读次数:
115
项集: 最基本的模式是项集,它是指若干个项的集合。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。常用的频繁项集的评估标准有支持度,置信度和提升度(关联规则) ...
分类:
其他好文 时间:
2020-04-04 14:45:35
阅读次数:
976
序言 FP growth(Frequent Pattern Tree, 频繁模式树),是韩家炜老师提出的挖掘频繁项集的方法,是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或频繁项对,即常在一块出现的元素项的集合FP树。 FP growth算法比Apriori算法效率更高,在整个算法执行过 ...
分类:
其他好文 时间:
2020-01-11 22:39:06
阅读次数:
92
挖掘频繁模式、关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构)。 例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。 一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购 ...
分类:
其他好文 时间:
2019-08-31 23:05:30
阅读次数:
117
一、一般模式下线程安全的HashMap 默认情况常用的HashMap都是线程不安全的,在多线程的环境下使用,常常会造成不可预知的,莫名其妙的错误。那么,我们如何实现一个线程安全的HashMap呢?其中一个可行的方式是使用Collectons.synchronizedMap() 方法来包装我们的Has ...
分类:
编程语言 时间:
2019-03-23 22:35:20
阅读次数:
221
1. 关联 关联, 指的是关联分析, 这里引用百度百科的定义. 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 通过关联分析, 可以挖掘出"由于某些事件的发生而引起另外一些事件的发生"之类的规则, 比如说"炸鸡 啤 ...
分类:
其他好文 时间:
2019-01-14 18:57:53
阅读次数:
257
关联分析(关联挖掘)是指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。 ...
分类:
编程语言 时间:
2018-10-10 00:00:38
阅读次数:
220
2.1 数据挖掘概念 数据挖掘(Data Mining)是知识发现(KDD)的核心部分,它指的是从数据集合众自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等。总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可 ...
分类:
其他好文 时间:
2018-04-30 17:58:06
阅读次数:
229
一.频繁项集挖掘为什么会出现FP-growth呢? 原因:这得从Apriori算法的原理说起,Apriori会产生大量候选项集(就是连接后产生的),在剪枝时,需要扫描整个数据库(就是给出的数据),通过模式匹配检查候选集合(为的是找到满足最小支持度的项)。候选产生过程带来的就是昂贵的代价开销,所以FP ...
分类:
编程语言 时间:
2018-01-10 13:59:05
阅读次数:
298
空间轨迹是一个(x,y)点的序列,每个点都有一个时间戳.因为轨迹通常是由传感器测量的,所以它们不可避免地会出现一些错误,需要对数据进行平滑化处理。 此外,司机绕路或者交通事故也会导致轨迹数据出现偏离,这时候我们需要对轨迹数据进行异常检测。 数据平滑化处理 过滤技术进行为了演示,我们用一个GPS记录器 ...
分类:
其他好文 时间:
2017-10-07 20:47:13
阅读次数:
1217