下面内容摘自互联网并作了整理。名词:BI(Business
Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction
Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2014-06-07 05:32:53
阅读次数:
263
在数据挖掘中,K-Means是一种用来计算数据聚集的算法。具体来说,K-Means要解决的问题如下图所示
凭肉眼可以看出,大致可以分为4个点群。但是怎么通过计算机找出这几个点群呢?这就是K-Means要解决的问题。
普通的K-Means算法的步骤如下
(1)随机在图中取K个种子点
(2)对图中的每个点求到这K个点的距离,假设点距离种子点最近,那么属于点群...
分类:
其他好文 时间:
2014-06-05 07:39:11
阅读次数:
733
六月到了。开始找工作的节奏,IT方面知识储备严重欠缺,定计划,更新博客,记录自己的准备历程。1、数据结构 15天2、常用算法(排序、动态规划、贪心等)
30天3、数据挖掘算法 15天4、移动端、web端开发入门 15天5、操作系统 10天共计85天,那时将近9月,还能赶上找工作的大潮。何...
分类:
其他好文 时间:
2014-06-02 11:46:07
阅读次数:
314
数据挖掘系列(4)使用weka做关联规则挖掘weka Apriori算法实例操作详解用
WEKA 进行数据挖掘,第 1 部分: 简介和回归
分类:
其他好文 时间:
2014-06-01 12:22:01
阅读次数:
156
贝叶斯分类是统计学的一个分类方法,基于贝叶斯定理。首先贝叶斯分类的一个核心假设是一个属性值对给定类的影响独立于其他属性的值(类条件独立)。
先来看下条件概率:
设A、B是两个事件,且P(B)>0,则称 为在事件B发生的条件下,事件A的条件概率。
再来看一下贝叶斯定理:。
其中:
X 是类标识未知的数据样本(或数据元组)
如:35岁收入$4000的顾客
...
分类:
其他好文 时间:
2014-06-01 09:52:51
阅读次数:
235
Apriori算法是数据挖掘中一种挖掘关联规则的频繁项集算法。其核心是基于两阶段频集思想的递推算法。
先来了解下关联规则挖掘:
发现事务数据库,关系数据, 或其它信息库中项或数据对象集合间的频繁模式。关联,相关,或因果关系结构。
频繁模式:在数据库中频繁出现的模式(项集, 序列, 等)。
动机是发现数据中的规律性。
如:
购物篮分析:哪些产品更经...
分类:
其他好文 时间:
2014-06-01 09:52:13
阅读次数:
245
Explorer:menu selection and form filling缺点:when you
open a dataset, it immediately loads it all in. This means that the Explorer can
only be applied t...
分类:
其他好文 时间:
2014-05-29 21:03:09
阅读次数:
385
概述这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘、分析。因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变。例如,基于大数据分析可以做疾病预测控制;基于..
分类:
其他好文 时间:
2014-05-25 08:25:49
阅读次数:
620
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, ...
分类:
其他好文 时间:
2014-05-25 07:01:04
阅读次数:
317