前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF。在此做个记录。 首先简单介绍一下SPMF: SPMF是一个采用Java开发的开源数据挖掘平台。 它提供了51种数据挖掘算法实现,用于: 序列模式挖掘, 关联规则挖掘, frequent itemset 挖掘, 顺序规则挖掘, 聚类 H...
分类:
编程语言 时间:
2015-01-22 20:08:51
阅读次数:
415
商务智能产品 数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过....
分类:
其他好文 时间:
2015-01-22 19:58:14
阅读次数:
176
Kmeans算法是一种极为常见的聚类算法。其算法过程大意如下:(1)通过问题分析,确定所要聚类的类别数k;(一般是难以直接确定,可以使用交叉验证法等方法,逐步进行确定。)(2)根据问题类型,确定计算数据间相似性的计算方法;(3)从数据集中随机选择k个数据作为聚类中心;(4)利用相似度计算公式,计算每...
分类:
其他好文 时间:
2015-01-22 11:00:54
阅读次数:
244
聚类分析:对样品或指标进行分类的一种分析方法,依据样本和指标已知特性进行分类。本节主要介绍层次聚类分析,一共包括3个部分,每个部分包括一个具体实战例子。1、常规聚类过程:一、首先用dist()函数计算变量间距离dist.r = dist(data, method=" ") 其中method包括6种方...
分类:
其他好文 时间:
2015-01-22 10:41:27
阅读次数:
1816
Hybrid Recommender System based on Fuzzy Clustering and Collaborative Filtering 给出题目,想找的话直接在ElsevierSD里下载即可。 并不是逐句翻译,一些简单的背景比如经济啦什么的直接忽略,不过笔者会在博文里点出来....
分类:
其他好文 时间:
2015-01-20 22:03:38
阅读次数:
352
Matlab提供了两种方法进行聚类分析。
一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;
另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类...
分类:
其他好文 时间:
2015-01-20 12:04:46
阅读次数:
501
原文:http://www.cnblogs.com/luxiaoxun/archive/2013/05/09/3069594.htmlClustering中文翻译作“聚类”,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你...
分类:
编程语言 时间:
2015-01-19 20:38:24
阅读次数:
306
所谓的聚类是指,将一个数据集中的某些方面相似的数据成员进行分类的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数...
分类:
其他好文 时间:
2015-01-17 17:43:56
阅读次数:
219
介绍K-means算法是是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。图示 步骤从N个文档随机选取K个文档作...
分类:
其他好文 时间:
2015-01-17 15:07:54
阅读次数:
122
原文:经典算法题每日演练——第五题 字符串相似度 这篇我们看看最长公共子序列的另一个版本,求字符串相似度(编辑距离),我也说过了,这是一个非常实用的算法,在DNA对比,网
页聚类等方面都有用武之地。
一:概念 对于两个字符串A和B,通过基本的增删改将字符串A改成B,或者将B改成A,在改变的过程中我们...
分类:
编程语言 时间:
2015-01-16 12:44:59
阅读次数:
207