学习了数据挖掘这门课,但是里面的算法仅仅是稍微了解了一下,并没有实现一下,试着把每个算法实现一下。。。。1、决策树之ID3下表记录了在不同气候条件下是否去打球的情况,要求根据该表用程序输出决策树。Day Outlook Temperature Humidity Wind PlayTennis1 Su...
分类:
编程语言 时间:
2015-10-16 15:21:25
阅读次数:
226
http://www.cnblogs.com/jingwhale/p/4618351.htmlApriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据...
分类:
编程语言 时间:
2015-10-12 00:45:26
阅读次数:
311
Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。一、常用操作符(操作符其实也是函数)++ ++[B](that: Ge...
分类:
其他好文 时间:
2015-09-29 20:17:05
阅读次数:
232
在上一篇数据挖掘入门算法整理中提到,Apriori算法是关联规则算法中使用最为广泛的算法,这次我们就来学习下该算法的基本知识。 一、算法概述 ????Apriori 算法是一种最有影响力的挖掘布尔关联规则的频...
分类:
编程语言 时间:
2015-09-20 20:53:51
阅读次数:
156
本文将介绍数据挖掘入门算法整理中提到的关联算法Apriori,简单介绍了Apriori的应用场景,相关概念以及实现思路。
分类:
编程语言 时间:
2015-09-20 20:44:27
阅读次数:
219
注意:1、代码中的注释请不要放在源程序中运行,会报错。2、代码中的数据集来源于http://archive.ics.uci.edu/ml/datasets/Car+Evaluation3、对于朴素贝叶斯的原理,可以查看我的前面的博客#Author:WenxiangCui
#Date:2015/9/11
#Function:AclassifierwhichusingnaiveBayesiana..
分类:
编程语言 时间:
2015-09-14 00:44:27
阅读次数:
234
决策树是个极其易懂的算法,也是最常用的数据挖掘算法,决策树允许机器根据数据集创造规则,其实这就是机器学习的过程。专家系统中经常会使用到决策树及其变种,而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的专家。
优点:决策树的计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;
缺点:可能会产生过度匹配的问题;
适用数据类型:数值型和标称型。...
分类:
其他好文 时间:
2015-09-03 00:46:44
阅读次数:
296
之前有幸在MOOC学院抽中小象学院hadoop体验课。这是小象学院hadoop2.X的笔记由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频。Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类、分类、推荐算法)不过数据挖掘调参和...
分类:
其他好文 时间:
2015-08-29 00:45:12
阅读次数:
211
介绍
Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找出经常出现的组合,然后根据这些组合最终推出我们的关联规则。
Apriori算法原理
Apriori算法是一种逐层搜索...
分类:
编程语言 时间:
2015-08-28 13:33:33
阅读次数:
252
Kmeans聚类算法1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分...
分类:
编程语言 时间:
2015-08-27 00:02:53
阅读次数:
408