邻近算法 KNN算法的决策过程 k-Nearest Neighbor algorithm是K最邻近结点算法(k-Nearest Neighbor algorithm)的缩写形式,是电子信息分类器算法的一种该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文....
分类:
编程语言 时间:
2014-09-02 10:13:54
阅读次数:
329
数据挖掘经典算法国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.个人论文采用的是Apriori,所以针对于此...
分类:
其他好文 时间:
2014-08-23 22:52:21
阅读次数:
273
与KNN比较:KNN是计算未知类型数据与已知类型数据之间的距离,与数值计算相关。Decision Tree 先是在已知数据集上构造好一棵决策树,树中的每个分叉会用到一个特征,这就需要用到信息熵的概念,对每个特征计算信息熵 来使得分叉处选取到最好的特征对数据进行分类,(训练集选取好最佳特征,测试集就按...
分类:
其他好文 时间:
2014-08-23 15:22:50
阅读次数:
210
1:简单概念描述
Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。
1:弱学习器:在二分情况下弱分类器的错误率会高于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、Naïve Bayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。...
分类:
其他好文 时间:
2014-08-18 22:07:03
阅读次数:
334
上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容。1. 信息熵 熵最初被用在热力学方面的,由热力学第二...
分类:
其他好文 时间:
2014-08-12 02:58:03
阅读次数:
2296
5个提案的14个开题报告,涉及数据可视化实践、社交云电视模型、Spark上流式机器学习算法实现、基于云存储的Linux系统增强服务和网络拓扑距离的高效KNN查询。...
分类:
其他好文 时间:
2014-08-07 18:58:10
阅读次数:
306
在上一篇博文中,我们对KNN算法思想及流程有了初步的了解,KNN是采用测量不同特征值之间的距离方法进行分类,也就是说对于每个样本数据,需要和训练集中的所有数据进行欧氏距离计算。这里简述KNN算法的特点:优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值.....
分类:
编程语言 时间:
2014-07-26 14:52:00
阅读次数:
361
机器学习新手,接触的是《机器学习实战》这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如,对于垃圾邮件的检...
分类:
编程语言 时间:
2014-07-22 23:37:57
阅读次数:
366
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。
1:简单概念描述
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
事件ai发生的概率用p(ai...
分类:
其他好文 时间:
2014-07-21 22:21:08
阅读次数:
360